国际合作必不可少，普通用户也有贡献，治理AI“投毒”需结合多方力量

来源：环球时报

【环球时报报道记者郭媛丹】国家安全部微信公众号21日发文曝光人工智能（AI）“投毒”隐蔽产业链，这种通过恶意数据污染AI模型的行为，不仅扰乱商业秩序、影响信息传播，更会危害国家安全。AI在赋能千行百业的同时，其安全风险也不容忽视。多名网络安全专家21日对《环球时报》表示，AI模型“投毒”危害性极大，甚至威胁国家安全。对此，应压实平台责任，建立数据白名单，并加强跨境治理与全民举报机制。

什么是AI“投毒”

所谓“数据投毒”是通过向AI大模型训练数据中注入伪装成正常样本的恶意数据，实现削弱模型性能、降低准确性的攻击方法，常被用于恶性市场竞争，甚至可能涉及间谍活动，日益呈现出链条化、隐蔽化、跨境化特征。

安天科技集团董事长、首席架构师肖新光21日接受《环球时报》记者采访时对此解释称，“大模型平台输出的结果是一种‘概率’。大众看到的输出内容通常来自两部分的融合：一部分是用海量文档、图片等数据进行训练实现模型推理生成，这部分需要海量高质的数据资源及很长的训练时间；一部分来自对互联网内容的检索增强。前者擅于处理逻辑、创新问题，后者善于处理时效性问题。”

据介绍，在大模型平台输出的过程中，如果训练数据或者被检索到的互联网内容带有虚假、有害数据，就会影响到大模型的输出概率。若有人故意在这些环节投放有害数据，就会影响到大模型的生成结果，最终呈现的可能就是错误的信息结果。

肖新光举例说明，比如一个劣质食品厂商将自身产品包装为绿色健康食品，并构造几个对比评测、形成相关报告，通过发布、有偿投稿甚至黑客攻击等手段，让内容出现在大模型增强搜索机制获取的数据源内，用户在寻找减肥养生方案时，就可能被推荐该产品。

“毒信息”是如何塞进AI大脑的

接受《环球时报》记者采访的网络安全专家表示，大模型工作是训练、微调、应用三个过程持续迭代。因此，最常见的“投毒”也发生在这三个过程中。

据介绍，训练期投毒是让有害的数据信息污染训练过程，训练数据集如果有事实错误、主观臆测等，会对大模型内容输出的准确性带来干扰。微调期投毒是通过僵尸网络或水军，基于对抗式提问导致AI生成错误答案，然后再赞错误答案、踩正确答案，导致错误的反馈。应用期投毒主要利用了增强检索，也就是一个强化的搜索引擎，在此过程中攻击者构造假的权威信息并进行搜索排名优化、在平台常用信息源提交虚假有害信息文献、入侵相关网站放置篡改内容等，就能让相关信息进入到增强检索过程中。

肖新光表示，近期频繁出现AI技能商店、工具环境相关供应链投毒事件，这些事件中投的“毒”不只是有害内容，还有可以执行的恶意代码，其威胁直达用户端的AI代理，包括用户的系统安全。

模型投毒存在隐蔽性

国家安全部公号文章提到，“模型投毒”可通过微调、插件植入等方式植入“后门”，触发关键词才激活。

奇安信人工智能公司安全专家刘岩对《环球时报》记者表示，以微调植入后门和插件投毒为代表的新型模型投毒攻击，已经远远超出了传统基于签名和边界防护的网络安全检测范畴。传统网络安全手段——防火墙、入侵检测、漏洞扫描、病毒查杀——主要聚焦网络异常流量、系统漏洞、恶意代码等显性威胁，面对模型投毒均存在显著盲区。

刘岩表示，这类攻击的隐蔽性，首先体现在“静态无害，动态触发”。攻击者通过微调在模型权重中嵌入“触发器”，在日常使用中模型表现完全正常，任何静态扫描或常规功能测试都无法发现异常。只有当用户输入特定关键词，例如特定产品型号、人名或政治敏感词时，后门才会被激活，输出预设的错误或恶意内容。这种“平时隐身、精确制导”的特性，让传统入侵检测系统和防病毒软件形同虚设。

其次，极低的攻击成本也加剧了防御压力。Anthropic等公司的研究证明，攻击者仅需在训练数据中混入250份恶意文档，就能在参数量高达1300亿的大模型中成功植入后门。刘岩表示，“这意味着攻击者不需要攻破任何系统，不需要高超的黑客技术，只需要在互联网上发布250篇看似正常的文章，就有可能操纵数十亿参数AI模型的行为——这种攻击范式，前所未有。”

面对这些隐蔽威胁，业界正从多个前沿技术方向构建防御体系。刘岩形容说，“不仅要用传统手段守住门窗，还要确保AI从出生起就是干净的。”

据介绍，构建这样的防御体系，第一步是可信AI与模型审计。在模型发布前，通过形式化验证、对抗性测试和红队演练对模型进行严格的安全测评，把好出厂关。第二步是模型指纹与数字水印。在模型训练或推理阶段嵌入独特的指纹，当模型被窃取、篡改或滥用时可以进行追踪溯源。

此外，也有网络安全厂家建议用AI对抗AI，也就是以AI原生安全的思路应对AI威胁。

普通用户也为大模型发展作出贡献

“技术本身并无善恶之分，关键在于使用者是否坚守法律底线、恪守商业伦理。”国家安全部公号文章表示，近年来，我国出台《生成式人工智能服务管理暂行办法》等法律法规，发布《人工智能安全治理框架》《推动人工智能安全可靠可控发展行业倡议》等，在加强监管、防范风险等方面作出了诸多努力。

肖新光认为，AI投毒治理应对，是国家安全和社会治理工作的一部分，“这不是一个简单的技术安全问题，也不能幻想单纯依靠技术手段就能解决问题，而是国家安全斗争和综合社会治理的系统工程。互联网大厂、大模型平台厂商享受了时代发展红利，更需立场和担当”。

对于在关键行业推动AI训练数据的白名单机制，刘岩表示，“在政务、金融、能源、医疗等关乎国计民生的关键信息基础设施领域，贸然使用未经验证的互联网公开数据进行训练，存在极大风险。必须建立国家级的高质量、高安全白名单数据集。这些数据必须经过人工审核、机器清洗和安全加固，确保水源的纯净。只有基于白名单数据训练出的纯净模型，才能被允许在关键基础设施中运行，以此确保国家核心数据的主权与安全。”

此外，专家对普通用户的建议是，大模型整体输出质量、效率高于搜索引擎，因此无需过于恐慌。肖新光表示，“一方面积极拥抱大模型带来的便利，另一方面不迷信大模型的结果，保持质疑精神，甚至在发现错误信息、有害信息时，点一下‘踩’，及时留存举报。这些举动都是普通用户为大模型更好的发展、为国家安全和社会治理作出贡献。”

治理AI投毒需国际合作

国家安全部公号文章还提到，AI“投毒”黑灰产已呈现“跨境化、链条化”特征。这种跨国协作的攻击模式，对全球AI治理框架构成了前所未有的挑战。

刘岩认为，AI投毒黑灰产的跨境化、链条化特征，正在从根本上动摇以主权国家为边界的全球AI治理框架。“投毒产业链的策划者可能在A国，利用B国的服务器和开源平台，针对C国的大模型用户发动攻击——就像网络世界的飞地犯罪，任何一个国家的法律都无法完整覆盖全链条。这不仅带来了执法管辖权冲突的难题，更让境外势力能够低成本地实施意识形态渗透和数据主权破坏。OpenClaw这样的开源AI基础设施是全球共享的，任何一个环节失守，风险都会迅速传导至全球。”

与此同时，AI攻击的隐蔽性使得溯源极其困难，攻击者可通过匿名网络、跳板机、加密通信等方式隐藏行踪，而AI模型的黑箱特性也增加了取证的难度。

面对这些挑战，没有哪个国家能独善其身，国际社会需要展开合作。就像全球反恐需要情报共享一样，防范AI投毒也需要全球协作。目前中国提出的《全球人工智能治理倡议》已在国际社会获得广泛响应，国内AI安全标准也在加速制定——中国方案正在为全球AI安全治理贡献务实力量。