Alignment¶

约 996 个字 2 张图片预计阅读时间 3 分钟

1.大模型的对齐是什么？¶

对齐指的是让大语言模型的行为、输出和决策方式与其设计者(人类操作者)的意图、价值观和指令保持一致的过程。

对齐的目标：

听懂人话：确保模型能理解你的真实意图
安全：不生成有害/歧视/非法内容
价值观正向：输出的内容符合广泛认可的伦理标准
诚实可信：不知道就直说不知道，不胡编乱造
实用主义：输出简洁清晰、结构合理、符合常识

2.为什么要对齐？¶

安全性：避免有害输出（包括仇恨言论、歧视性内容、暴力、色情等信息）；防止滥用（防止模型被用于进行欺诈、制造垃圾邮件、传播恶意软件、进行社会攻击等）；增强鲁棒性（让模型不容易被恶意提示诱导去做坏事）。
可用性和可靠性：指令遵循（让模型能准确理解并执行用户的具体要求）；保持真实性（让模型不胡编乱造，尽量基于事实推理，减少模型幻觉）；符合用户期望（让模型的输出方符合人类用户的合理预期）；道德判断（在涉及道德两难问题时，能输出符合社会普遍伦理的答案或拒绝回答，而不是给出危险建议）。
可信度和实用性：一个行为符合预期、安全可靠、能够遵循指令的模型才真正有用，才能被用户信任并应用于各种严肃场景。

3.SFT¶

SFT(Supervised Fine-Tuning) 是监督微调，特指在预训练模型(如大语言模型)基础上，通过少量标注数据调整模型参数，使其适应特定任务的技术。SFT需要人工整理标签进行学习，模型结构与Pre-training模型相同，但预训练使用的数据为连续的文本，SFT要人工梳理问题与对应的答案，并且数据一般是特定任务数据集，标注数据内容围绕特定任务展开。

SFT一般只需要对response部分进行loss计算，无需对prompt部分计算loss。

SFT具体实现方法有可以进行全量微调，也可以使用少量参数对大模型进行微调，比如LoRA方法等。