大模型安全¶
约 794 个字 预计阅读时间 2 分钟
资料:LLM Security
1.为何需要LLM安全?¶
幻觉(Hallucination):模型在缺乏证据时生成看似可信但错误的内容,若直接用于自动化决策或工具链将带来实际风险。
指令/数据边界模糊 → 指令注入(Prompt Injection):在 RAG、浏览器/邮箱读取、插件/工具链调用等场景,外部数据中的隐藏指令可能被模型误当作“要执行的命令”,引发直接或间接指令注入、提示泄露(Prompt Leaking)等。
调用过程中的隐私暴露:云端推理与 RAG 检索会产生查询隐私、向量嵌入反演、知识库成员推断等问题,导致企业/个人敏感数据泄露。
其他相关问题:模型/Agent 越权执行、工具授权与能力委托、供应链与插件生态风险、数据/知识库投毒、可观测与取证缺失、评测与复现实验基准不足等。
2.细分领域¶
LLM Safety主要围绕“攻击”(如何攻破)和“防御”(如何加固)两大方面展开。
| 细分领域 | 核心关注点 | 主要攻击方式 | 主要防御策略 |
|---|---|---|---|
| 对齐与价值对齐 (Alignment & Value Alignment) | 核心使命是引导LLM行为符合人类的价值观,在“有帮助”和“无害”之间找到平衡。 | 越狱、提示注入、模型微调引入安全风险、多轮对话操纵。 | RLHF、RLAIF、DPO、对抗性训练、推理增强的微调。 |
| 鲁棒性与对抗性攻击 (Robustness & Adversarial Attacks) | 研究LLM在面对恶意输入时的脆弱性,寻找绕过其安全护栏的方法。 | 基于提示的攻击、基于模型的攻击、多模态攻击、多语言攻击、梯度优化攻击。 | 提示过滤与转换、多智能体防御、输入净化、可解释的防御机制。 |
| 隐私保护 (Privacy Protection) | 防止模型在训练或推理时泄露、生成或推理出用户的个人敏感信息。 | 数据提取攻击、模型逆向攻击、成员推理攻击、隐私泄露。 | 差分隐私(DP)、联邦学习、安全多方计算(MPC)、数据去标识化。 |
| 公平性与偏见 (Fairness & Bias) | 识别并减轻LLM中可能存在的、针对特定人群或内容的刻板印象和歧视。 | 训练数据中的偏见、模型学到的社会刻板印象、算法歧视。 | 公平性算法、偏见识别与缓解技术、构建去偏数据集、人机协同审核。 |
| 智能体安全 (Agent Safety) | 应对能自主感知、规划和使用工具的LLM智能体所带来的新安全挑战。 | 目标错位、工具滥用、过度代理、提示注入、多智能体间的恶意合作。 | 基于规则的约束、沙箱隔离、工具使用审查、人机回环(Human-in-the-loop)。 |
| 模型编辑与遗忘 (Model Editing & Unlearning) | 在后期精准修改特定知识或“遗忘”有害信息,而不影响模型整体性能。 | 知识编辑可能被反向利用来植入恶意信息或后门。 | 模型编辑(Model Editing)、机器遗忘(Machine Unlearning)、安全知识蒸馏。 |