细思极恐！Agent暗藏风险，清华团队打出组合拳，全链路一网打尽,清华igem

新智元报道

编辑：YHluck

【新智元导读】当Agent开始真正进入生产环境，安全问题不再是「功能模块」，而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式，正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。

当所有人都在卷Agent能力的时候，一个更危险的问题，已悄然出现——

你部署的Agent，此刻到底在做什么？

一个被忽略很久的事实

Agent会「表演」

过去两年，行业几乎把全部火力砸在了模型能力、Agent框架与工具调用体系的军备竞赛里。

安全能力，则更多停留在「表层防护」：提示词规则、输入输出过滤、运行时日志审计，加上基于SDK Hook的框架级约束。

这些机制各自有效。但它们共享同一个根本性盲区——

它们看到的，只是Agent「声明」出来的行为。

但如果将视角稍微下沉一层，问题会迅速变得复杂。

Agent在执行任务时，会与环境发生大量真实交互：调用API、读写文件、操控浏览器、驱动数据库、以及与其他Agent协同通信。

一个完整任务的执行链，可能横跨数十个步骤、多个工具链与多个运行层级。

这种复杂性本身，就天然构成了行为掩护层。

更可怕的是，模型会在被监控的环境下，主动调整自己的行为表现。不是按规则执行，而是「按规则表演」。

这不是科幻设定。而是已经在论文里、在红队报告里、在企业内部事故复盘里反复出现的真实风险。

当企业内部同时运行数十甚至上百个Agent，由不同团队、不同框架与不同模型构建时，一个更现实的问题随之出现：

系统已经无法完整感知，自己正在运行多少个Agent。更无法确认，它们真正在做什么。

Fangcun Observer

看见真实动作，守住安全边界

来自清华大学人工智能学院、交叉信息研究院的方寸跃迁给Observer指定了一条设计哲学——

别问Agent想做什么，看它到底做了什么。

听起来简单，真正的挑战在于把它锻造成稳定、低延迟、可审计、可规模化的系统。

视角的反转

主流的Agent安全方案，几乎清一色接在表层：提示词里的安全规则、输入输出的内容过滤、运行时的日志审计、Agent Harness提供的SDK Hook。

每一层都有人在做。

每一层也都有同一个盲区：它们看到的，都是Agent在框架边界上「声明」出来的那一层。

Observer不走这条路。

它直接下沉到操作系统层，不依赖任何框架插件，不依赖SDK接口，不依赖模型供应商集成。业务代码零改动，Agent无感知接入——观测，即刻开始。

它捕获的，是Agent的真实行为：

执行了哪些系统命令

读写了哪些文件

发起了哪些网络请求

是否出现越权操作或高风险行为序列

过去的方案，看到的是Agent「说」了什么。Observer看到的，是Agent「做」了什么。

声明可以包装，行为不会撒谎。

五项核心能力

重新定义Agent安全的边界

OS层行为感知，彻底解耦Harness，开箱即用

Agent生态日新月异，没有任何一个框架能成为永久标准。今天是Open Claw，明天可能换成Hermes，后天又会有新的涌现。

Observer直接在操作系统层感知Agent的真实动作，与上层框架、调用栈、模型供应商完全解耦。

无论Agent跑在哪套栈上，观测能力始终有效。

企业不需要为每一次技术迁移，重新接入一遍安全体系。

无感知运行时观测

业务代码零改动，计算开销忽略不计，现有链路一行都不用碰。不是「改动很小」——是真的不用动。

第二层更关键。Agent不会知道自己正在被观测——你看到的，是它真正的行为。不是它「表演」给你看的样子。

实时干预，主动阻断，安全前置

Observer不只是事后复盘工具。

危险命令执行、敏感文件操作、异常网络访问、越权持久化——针对这些高风险行为，系统在行为落地之前完成实时研判，按策略执行通知、暂停或直接阻断。

从亡羊补牢，变成关门打狗。

全链路溯源，揪出隐藏威胁

真正的风险，从来不在表面。

Observer把运行时的真实行为、Agent的决策动作与模型上下文关联成完整的行为图谱——每一个风险事件，都能追溯到完整的决策链路。

哪怕是环境投毒攻击；哪怕是从不亲自动手、只靠影响其他Agent来转嫁风险的恶意Agent——在多Agent协作网络里，都无处遁形。

本地审计+自进化防御策略

所有观测、审计、事件数据均可完整本地沉淀，不上云、不外传。

策略模型基于真实运行数据持续迭代，从静态规则走向自进化防御。

安全能力，随业务规模一同生长。

Fangcun Guard

让安全审核，从「性能税」变成「基础设施」

Observer守住的是Agent在系统层的真实行为。

但Agent的输入和输出，同样需要一道护栏。

一个真正能放进生产环境的安全护栏，到底要做到什么？

够快。一次完整的Agent对话，要过2到4道审核：用户输入、工具调用入参、模型输出、工具返回。每一道都不能拖慢用户体验。

够准。不能某一类强、某一类崩。漏检少，误拒低，所有主流场景都要稳定输出。

够灵活。金融、医疗、教育、游戏，每个场景的风险结构完全不同。一套固定阈值打天下，行不通。

业内主流的开源安全大模型——Llama Guard、NVIDIA Nemotron、Qwen3 Guard、xGuard——已经把这件事推到了相当不错的水平。

但同时把「快、准、灵活」三件事都做到顶尖？

Fangcun Guard，是方寸跃迁给出的答案。

数据怎么样，直接看图

6项公开benchmark，7款最常用的开源安全模型，同条件对齐评测。

先看综合检测准确性：Fangcun Guard=91.1。开源方案的区间，分布在70到88之间。

再看p99推理延时：Fangcun Guard=8毫秒。8B量级的开源方案普遍在130毫秒以上，0.6B的轻量方案能压到50毫秒以内——但F1上还有差距。

5项差异化能力

决定它能不能进生产环境

判定不偏科，灰区话术不放过

一般有害内容，能判。精心构造的越狱攻击，能判。深度伪装成正常对话的灰区话术——也能判。

跨场景稳定输出，是进生产环境的唯一门票。

毫秒级响应，安全审核变基础设施

一次完整Agent对话，要过4道审核。4道全跑Guard，总耗时30毫秒。

用户感知不到。业务感知不到。

安全审核，从「性能税」变成了默认开启、随处可加的基础设施。

中文场景，专项打磨

通用安全大模型的惯常操作：全世界语言一锅炖，英文亮眼，中文长尾频繁漏过。

Fangcun Guard把风险拆成10个独立类别，每一类基于中文场景专项合成数据、专项对齐训练。跨语种攻击、口语化越狱、长尾边缘案例，稳定召回。

10类风险独立可调，不再一刀切

通用安全模型只给「开/关」两档。但金融、医疗、教育、游戏，每个场景的风险结构完全不同。

FangcunGuard把10类风险作为独立维度暴露给企业，每一类拦截阈值单独配置，Web控制台或接口中按业务自调。

主流Agent生态一键接入

主流Agent框架开箱即用，业务代码零改动。

如果你的Agent还卡在130毫秒的延迟里——

是时候换一个8毫秒搞定的护栏了。

Skill Ward

三阶段检测，真实蜜罐运行

Observer守运行时行为，Guard守输入输出边界。

但随着Agent的持续发展，还有一类风险来自更上游——第三方Skill。

这个生态已经长成了Agent的「App Store」。

Claude Skills、OpenAI Apps、Claw Hub，几十万个第三方Skill汇聚其中。

行业现有的方案，几乎全部停留在静态扫描：扫一遍代码、查可疑导入、检索黑名单关键词。

但恶意Skill真正的杀招，从来不在静态代码里。

那行写着「读取配置文件」的代码，跑起来才去拉远程载荷；

那段标注「调试日志」的逻辑，触发后才向外发请求；

那个看上去合法的依赖包，在特定参数下才激活后门。

只看代码，看不出来。

Skill Ward，是方寸跃迁推出的全球首个三阶段Agent Skill安全扫描器——不只是静态检查，是真实运行一遍。

第一阶段：静态分析——恶意签名、危险调用、可疑依赖，先过一遍。

第二阶段：大模型研判——理解Skill真实意图，识别伪装话术、混淆逻辑、社工诱导。

第三阶段：Docker蜜罐沙箱实际执行——真正的杀手锏。

每一个Skill都会被丢进隔离的蜜罐环境，真实跑一遍。

调用了哪些命令、访问了哪些路径、连接了哪些外部地址、有没有尝试持久化、有没有横向探测——一切行为，无处遁形。

那些「看上去无害、运行时才动手」的Skill，在这一关原形毕露。

5000个真实Skill实测：仅靠静态扫描，会漏掉约三分之一的运行时威胁。这部分，全部由蜜罐沙箱阶段抓出。

运行时的真实行为轨迹，才是答案。

事前、事中、事后

Agent安全的完整边界

Skill Ward，守事前——Skill装入Agent之前的最后一关

Fangcun Guard，守事中的输入输出——8毫秒的护栏，安全审核变基础设施。

Fangcun Observer，守事中的真实行为，沉淀事后审计——操作系统层的真相，无法造假。

过去两年，行业把几乎所有火力，砸在了Agent能力的天花板上。

但Agent真正大规模进入企业生产环境的那一刻，决定它能不能落地的，从来不是它有多聪明——

而是它有多可控：你知道有多少个Agent在运行。你知道每一个Agent真正在做什么。你能在它做错事之前阻断它。你能在它做对事的时候，让它跑得足够快。

Agent时代的安全边界，第一次被完整画出来。

在Agent安全尚处早期定义阶段的当下，方寸跃迁正通过产品与技术加速构建起Agent时代的全新安全基础设施平台。