跳转至

ycvenopyer

Agent Safety

ycvenopyer/my-blog

Agent Safety¶

约 332 个字预计阅读时间 1 分钟

LLM驱动的AI Agents中的安全性问题：LLM Agents 将“感知—规划—工具执行—反馈—记忆”闭环化，并使用浏览器、文件系统、代码解释器、企业 API 等外部能力完成开放环境任务；因此暴露出更复杂的系统化攻击面。

工具滥用与越权执行：高危工具（执行代码/脚本、shell、财务/法务系统 API）被诱导调用会产生真实世界副作用（数据改写、越权访问、资金转移等）。
（间接）指令注入与提示泄露：来自网页/文档/第三方服务响应中的恶意指令可劫持代理目标或窃取系统提示/密钥。
记忆与知识库投毒：被污染内容写入长期记忆后，在后续决策与工具调用时被持续放大。
后门与策略植入：在多步任务或多代理协作中，隐蔽触发条件可改变代理策略与目标（goal hijacking）。
供应链风险：页面脚本、下载文件、第三方扩展/插件与远端 API 引入新的入口，放大凭据泄露、会话劫持与数据外传风险。
评测与取证困难：长时序、多回合、多工具链路导致复现、问责与合规审计难度高。