LLM Compression¶
约 338 个字 预计阅读时间 1 分钟
当前的压缩方法有量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)和低秩分解(Low-Rank Decomposition)。
| 技术 | 核心原理 | 典型代表方法 | 主要优势 | 主要局限 | 适用场景 |
|---|---|---|---|---|---|
| 量化 | 降低参数/激活值的数值精度,如 FP32 → INT8 | GPTQ, AWQ, SmoothQuant, QLoRA | 压缩效果好,通用性强,推理加速明显 | PTQ 在极低比特下可能有精度损失 | 几乎所有部署场景,是首选技术 |
| 剪枝 | 移除不重要的权重或神经元 | SparseGPT (非结构化), 结构化剪枝 | 可显著减少参数量与计算量 | 非结构化剪枝依赖硬件支持;需微调恢复精度 | 追求极致压缩,尤其在支持稀疏计算的硬件上 |
| 知识蒸馏 | 让小模型(学生)学习大模型(教师)的行为 | DistilBERT, TinyBERT | 可构建极度轻量的模型,部署灵活 | 训练过程复杂,学生模型性能上限受限于教师模型 | 需要获得一个结构完全不同的小模型时 |
| 低秩分解 | 将权重矩阵分解为两个或多个低秩小矩阵 | LoRA, QLoRA | 参数高效微调(PEFT),与量化技术天然互补 | 单独压缩效果有限,通常与其他技术结合使用 | 配合微调(如 QLoRA)或作为辅助压缩手段 |