跳转至

LLM Compression

约 338 个字 预计阅读时间 1 分钟

当前的压缩方法有量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)和低秩分解(Low-Rank Decomposition)。

技术 核心原理 典型代表方法 主要优势 主要局限 适用场景
量化 降低参数/激活值的数值精度,如 FP32 → INT8 GPTQ, AWQ, SmoothQuant, QLoRA 压缩效果好,通用性强,推理加速明显 PTQ 在极低比特下可能有精度损失 几乎所有部署场景,是首选技术
剪枝 移除不重要的权重或神经元 SparseGPT (非结构化), 结构化剪枝 可显著减少参数量与计算量 非结构化剪枝依赖硬件支持;需微调恢复精度 追求极致压缩,尤其在支持稀疏计算的硬件上
知识蒸馏 让小模型(学生)学习大模型(教师)的行为 DistilBERT, TinyBERT 可构建极度轻量的模型,部署灵活 训练过程复杂,学生模型性能上限受限于教师模型 需要获得一个结构完全不同的小模型时
低秩分解 将权重矩阵分解为两个或多个低秩小矩阵 LoRA, QLoRA 参数高效微调(PEFT),与量化技术天然互补 单独压缩效果有限,通常与其他技术结合使用 配合微调(如 QLoRA)或作为辅助压缩手段