跳转至

大模型安全

约 794 个字 预计阅读时间 2 分钟

资料:LLM Security

1.为何需要LLM安全?

幻觉(Hallucination):模型在缺乏证据时生成看似可信但错误的内容,若直接用于自动化决策或工具链将带来实际风险。

指令/数据边界模糊 → 指令注入(Prompt Injection):在 RAG、浏览器/邮箱读取、插件/工具链调用等场景,外部数据中的隐藏指令可能被模型误当作“要执行的命令”,引发直接或间接指令注入、提示泄露(Prompt Leaking)等。

调用过程中的隐私暴露:云端推理与 RAG 检索会产生查询隐私、向量嵌入反演、知识库成员推断等问题,导致企业/个人敏感数据泄露。

其他相关问题:模型/Agent 越权执行、工具授权与能力委托、供应链与插件生态风险、数据/知识库投毒、可观测与取证缺失、评测与复现实验基准不足等。

2.细分领域

LLM Safety主要围绕“攻击”(如何攻破)和“防御”(如何加固)两大方面展开。

细分领域 核心关注点 主要攻击方式 主要防御策略
对齐与价值对齐 (Alignment & Value Alignment) 核心使命是引导LLM行为符合人类的价值观,在“有帮助”和“无害”之间找到平衡。 越狱、提示注入、模型微调引入安全风险、多轮对话操纵。 RLHF、RLAIF、DPO、对抗性训练、推理增强的微调。
鲁棒性与对抗性攻击 (Robustness & Adversarial Attacks) 研究LLM在面对恶意输入时的脆弱性,寻找绕过其安全护栏的方法。 基于提示的攻击、基于模型的攻击、多模态攻击、多语言攻击、梯度优化攻击。 提示过滤与转换、多智能体防御、输入净化、可解释的防御机制。
隐私保护 (Privacy Protection) 防止模型在训练或推理时泄露、生成或推理出用户的个人敏感信息。 数据提取攻击、模型逆向攻击、成员推理攻击、隐私泄露。 差分隐私(DP)、联邦学习、安全多方计算(MPC)、数据去标识化。
公平性与偏见 (Fairness & Bias) 识别并减轻LLM中可能存在的、针对特定人群或内容的刻板印象和歧视。 训练数据中的偏见、模型学到的社会刻板印象、算法歧视。 公平性算法、偏见识别与缓解技术、构建去偏数据集、人机协同审核。
智能体安全 (Agent Safety) 应对能自主感知、规划和使用工具的LLM智能体所带来的新安全挑战。 目标错位、工具滥用、过度代理、提示注入、多智能体间的恶意合作。 基于规则的约束、沙箱隔离、工具使用审查、人机回环(Human-in-the-loop)。
模型编辑与遗忘 (Model Editing & Unlearning) 在后期精准修改特定知识或“遗忘”有害信息,而不影响模型整体性能。 知识编辑可能被反向利用来植入恶意信息或后门。 模型编辑(Model Editing)、机器遗忘(Machine Unlearning)、安全知识蒸馏。