来源:环球时报

【环球时报报道 记者 郭媛丹】国家安全部微信公众号21日发文曝光人工智能(AI)“投毒”隐蔽产业链,这种通过恶意数据污染AI模型的行为,不仅扰乱商业秩序、影响信息传播,更会危害国家安全。AI在赋能千行百业的同时,其安全风险也不容忽视。多名网络安全专家21日对《环球时报》表示,AI模型“投毒”危害性极大,甚至威胁国家安全。对此,应压实平台责任,建立数据白名单,并加强跨境治理与全民举报机制。

什么是AI“投毒”

所谓“数据投毒”是通过向AI大模型训练数据中注入伪装成正常样本的恶意数据,实现削弱模型性能、降低准确性的攻击方法,常被用于恶性市场竞争,甚至可能涉及间谍活动,日益呈现出链条化、隐蔽化、跨境化特征。

安天科技集团董事长、首席架构师肖新光21日接受《环球时报》记者采访时对此解释称,“大模型平台输出的结果是一种‘概率’。大众看到的输出内容通常来自两部分的融合:一部分是用海量文档、图片等数据进行训练实现模型推理生成,这部分需要海量高质的数据资源及很长的训练时间;一部分来自对互联网内容的检索增强。前者擅于处理逻辑、创新问题,后者善于处理时效性问题。”


据介绍,在大模型平台输出的过程中,如果训练数据或者被检索到的互联网内容带有虚假、有害数据,就会影响到大模型的输出概率。若有人故意在这些环节投放有害数据,就会影响到大模型的生成结果,最终呈现的可能就是错误的信息结果。

肖新光举例说明,比如一个劣质食品厂商将自身产品包装为绿色健康食品,并构造几个对比评测、形成相关报告,通过发布、有偿投稿甚至黑客攻击等手段,让内容出现在大模型增强搜索机制获取的数据源内,用户在寻找减肥养生方案时,就可能被推荐该产品。

“毒信息”是如何塞进AI大脑的

接受《环球时报》记者采访的网络安全专家表示,大模型工作是训练、微调、应用三个过程持续迭代。因此,最常见的“投毒”也发生在这三个过程中。

据介绍,训练期投毒是让有害的数据信息污染训练过程,训练数据集如果有事实错误、主观臆测等,会对大模型内容输出的准确性带来干扰。微调期投毒是通过僵尸网络或水军,基于对抗式提问导致AI生成错误答案,然后再赞错误答案、踩正确答案,导致错误的反馈。应用期投毒主要利用了增强检索,也就是一个强化的搜索引擎,在此过程中攻击者构造假的权威信息并进行搜索排名优化、在平台常用信息源提交虚假有害信息文献、入侵相关网站放置篡改内容等,就能让相关信息进入到增强检索过程中。

肖新光表示,近期频繁出现AI技能商店、工具环境相关供应链投毒事件,这些事件中投的“毒”不只是有害内容,还有可以执行的恶意代码,其威胁直达用户端的AI代理,包括用户的系统安全。

模型投毒存在隐蔽性

国家安全部公号文章提到,“模型投毒”可通过微调、插件植入等方式植入“后门”,触发关键词才激活。

奇安信人工智能公司安全专家刘岩对《环球时报》记者表示,以微调植入后门和插件投毒为代表的新型模型投毒攻击,已经远远超出了传统基于签名和边界防护的网络安全检测范畴。传统网络安全手段——防火墙、入侵检测、漏洞扫描、病毒查杀——主要聚焦网络异常流量、系统漏洞、恶意代码等显性威胁,面对模型投毒均存在显著盲区。

刘岩表示,这类攻击的隐蔽性,首先体现在“静态无害,动态触发”。攻击者通过微调在模型权重中嵌入“触发器”,在日常使用中模型表现完全正常,任何静态扫描或常规功能测试都无法发现异常。只有当用户输入特定关键词,例如特定产品型号、人名或政治敏感词时,后门才会被激活,输出预设的错误或恶意内容。这种“平时隐身、精确制导”的特性,让传统入侵检测系统和防病毒软件形同虚设。

其次,极低的攻击成本也加剧了防御压力。Anthropic等公司的研究证明,攻击者仅需在训练数据中混入250份恶意文档,就能在参数量高达1300亿的大模型中成功植入后门。刘岩表示,“这意味着攻击者不需要攻破任何系统,不需要高超的黑客技术,只需要在互联网上发布250篇看似正常的文章,就有可能操纵数十亿参数AI模型的行为——这种攻击范式,前所未有。”

面对这些隐蔽威胁,业界正从多个前沿技术方向构建防御体系。刘岩形容说,“不仅要用传统手段守住门窗,还要确保AI从出生起就是干净的。”

据介绍,构建这样的防御体系,第一步是可信AI与模型审计。在模型发布前,通过形式化验证、对抗性测试和红队演练对模型进行严格的安全测评,把好出厂关。第二步是模型指纹与数字水印。在模型训练或推理阶段嵌入独特的指纹,当模型被窃取、篡改或滥用时可以进行追踪溯源。

此外,也有网络安全厂家建议用AI对抗AI,也就是以AI原生安全的思路应对AI威胁。

普通用户也为大模型发展作出贡献

“技术本身并无善恶之分,关键在于使用者是否坚守法律底线、恪守商业伦理。”国家安全部公号文章表示,近年来,我国出台《生成式人工智能服务管理暂行办法》等法律法规,发布《人工智能安全治理框架》《推动人工智能安全可靠可控发展行业倡议》等,在加强监管、防范风险等方面作出了诸多努力。

肖新光认为,AI投毒治理应对,是国家安全和社会治理工作的一部分,“这不是一个简单的技术安全问题,也不能幻想单纯依靠技术手段就能解决问题,而是国家安全斗争和综合社会治理的系统工程。互联网大厂、大模型平台厂商享受了时代发展红利,更需立场和担当”。

对于在关键行业推动AI训练数据的白名单机制,刘岩表示,“在政务、金融、能源、医疗等关乎国计民生的关键信息基础设施领域,贸然使用未经验证的互联网公开数据进行训练,存在极大风险。必须建立国家级的高质量、高安全白名单数据集。这些数据必须经过人工审核、机器清洗和安全加固,确保水源的纯净。只有基于白名单数据训练出的纯净模型,才能被允许在关键基础设施中运行,以此确保国家核心数据的主权与安全。”

此外,专家对普通用户的建议是,大模型整体输出质量、效率高于搜索引擎,因此无需过于恐慌。肖新光表示,“一方面积极拥抱大模型带来的便利,另一方面不迷信大模型的结果,保持质疑精神,甚至在发现错误信息、有害信息时,点一下‘踩’,及时留存举报。这些举动都是普通用户为大模型更好的发展、为国家安全和社会治理作出贡献。”

治理AI投毒需国际合作

国家安全部公号文章还提到,AI“投毒”黑灰产已呈现“跨境化、链条化”特征。这种跨国协作的攻击模式,对全球AI治理框架构成了前所未有的挑战。

刘岩认为,AI投毒黑灰产的跨境化、链条化特征,正在从根本上动摇以主权国家为边界的全球AI治理框架。“投毒产业链的策划者可能在A国,利用B国的服务器和开源平台,针对C国的大模型用户发动攻击——就像网络世界的飞地犯罪,任何一个国家的法律都无法完整覆盖全链条。这不仅带来了执法管辖权冲突的难题,更让境外势力能够低成本地实施意识形态渗透和数据主权破坏。OpenClaw这样的开源AI基础设施是全球共享的,任何一个环节失守,风险都会迅速传导至全球。”

与此同时,AI攻击的隐蔽性使得溯源极其困难,攻击者可通过匿名网络、跳板机、加密通信等方式隐藏行踪,而AI模型的黑箱特性也增加了取证的难度。

面对这些挑战,没有哪个国家能独善其身,国际社会需要展开合作。就像全球反恐需要情报共享一样,防范AI投毒也需要全球协作。目前中国提出的《全球人工智能治理倡议》已在国际社会获得广泛响应,国内AI安全标准也在加速制定——中国方案正在为全球AI安全治理贡献务实力量。