LLM Compression¶

约 338 个字预计阅读时间 1 分钟

当前的压缩方法有量化（Quantization）、剪枝（Pruning）、知识蒸馏（Knowledge Distillation）和低秩分解（Low-Rank Decomposition）。

技术	核心原理	典型代表方法	主要优势	主要局限	适用场景
量化	降低参数/激活值的数值精度，如 FP32 → INT8	GPTQ, AWQ, SmoothQuant, QLoRA	压缩效果好，通用性强，推理加速明显	PTQ 在极低比特下可能有精度损失	几乎所有部署场景，是首选技术
剪枝	移除不重要的权重或神经元	SparseGPT (非结构化), 结构化剪枝	可显著减少参数量与计算量	非结构化剪枝依赖硬件支持；需微调恢复精度	追求极致压缩，尤其在支持稀疏计算的硬件上
知识蒸馏	让小模型（学生）学习大模型（教师）的行为	DistilBERT, TinyBERT	可构建极度轻量的模型，部署灵活	训练过程复杂，学生模型性能上限受限于教师模型	需要获得一个结构完全不同的小模型时
低秩分解	将权重矩阵分解为两个或多个低秩小矩阵	LoRA, QLoRA	参数高效微调（PEFT），与量化技术天然互补	单独压缩效果有限，通常与其他技术结合使用	配合微调（如 QLoRA）或作为辅助压缩手段