大模型安全¶

约 794 个字预计阅读时间 2 分钟

1.为何需要LLM安全？¶

幻觉（Hallucination）：模型在缺乏证据时生成看似可信但错误的内容，若直接用于自动化决策或工具链将带来实际风险。

指令/数据边界模糊 → 指令注入（Prompt Injection）：在 RAG、浏览器/邮箱读取、插件/工具链调用等场景，外部数据中的隐藏指令可能被模型误当作“要执行的命令”，引发直接或间接指令注入、提示泄露（Prompt Leaking）等。

调用过程中的隐私暴露：云端推理与 RAG 检索会产生查询隐私、向量嵌入反演、知识库成员推断等问题，导致企业/个人敏感数据泄露。

其他相关问题：模型/Agent 越权执行、工具授权与能力委托、供应链与插件生态风险、数据/知识库投毒、可观测与取证缺失、评测与复现实验基准不足等。

2.细分领域¶

LLM Safety主要围绕“攻击”（如何攻破）和“防御”（如何加固）两大方面展开。

细分领域	核心关注点	主要攻击方式	主要防御策略
对齐与价值对齐 (Alignment & Value Alignment)	核心使命是引导LLM行为符合人类的价值观，在“有帮助”和“无害”之间找到平衡。	越狱、提示注入、模型微调引入安全风险、多轮对话操纵。	RLHF、RLAIF、DPO、对抗性训练、推理增强的微调。
鲁棒性与对抗性攻击 (Robustness & Adversarial Attacks)	研究LLM在面对恶意输入时的脆弱性，寻找绕过其安全护栏的方法。	基于提示的攻击、基于模型的攻击、多模态攻击、多语言攻击、梯度优化攻击。	提示过滤与转换、多智能体防御、输入净化、可解释的防御机制。
隐私保护 (Privacy Protection)	防止模型在训练或推理时泄露、生成或推理出用户的个人敏感信息。	数据提取攻击、模型逆向攻击、成员推理攻击、隐私泄露。	差分隐私（DP）、联邦学习、安全多方计算（MPC）、数据去标识化。
公平性与偏见 (Fairness & Bias)	识别并减轻LLM中可能存在的、针对特定人群或内容的刻板印象和歧视。	训练数据中的偏见、模型学到的社会刻板印象、算法歧视。	公平性算法、偏见识别与缓解技术、构建去偏数据集、人机协同审核。
智能体安全 (Agent Safety)	应对能自主感知、规划和使用工具的LLM智能体所带来的新安全挑战。	目标错位、工具滥用、过度代理、提示注入、多智能体间的恶意合作。	基于规则的约束、沙箱隔离、工具使用审查、人机回环（Human-in-the-loop）。
模型编辑与遗忘 (Model Editing & Unlearning)	在后期精准修改特定知识或“遗忘”有害信息，而不影响模型整体性能。	知识编辑可能被反向利用来植入恶意信息或后门。	模型编辑（Model Editing）、机器遗忘（Machine Unlearning）、安全知识蒸馏。