这项由Cohere、SEACrowd、AI Singapore、MBZUAI、卡内基梅隆大学、斯坦福大学、布朗大学等数十家机构联合完成的研究,发表于2026年4月,论文编号为arXiv:2604.11490,有兴趣深入了解的读者可以通过该编号查询完整论文。研究聚焦于一个听起来有些抽象但其实与每个人都息息相关的问题:当人工智能走向全球,它真的能理解不同地区的文化吗?

你有没有想过,当一个东南亚人对着手机AI助手展示一张炸香蕉饼或者宋卡湖的照片时,AI是否真的"认识"这些东西?或者当一个泰国人问AI"这道菜是什么",AI是否能给出真正符合当地文化背景的回答?事实往往令人失望:绝大多数AI系统是在以英语为主的西方数据上训练的,它们对非洲、印度、中东、东南亚等地区的文化认知,可以说相当贫乏。

正是为了解决这个现实问题,来自全球超过30所顶尖机构的研究人员联手,提出了一套全新的框架和方法。他们的核心主张是:AI不仅要"聪明",还要"有文化",而且这两件事不应该互相矛盾。

一、为什么AI会"水土不服",以及这件事有多严重

以餐厅的服务员做比较,能解释清楚这个问题的根源。一位在纽约五星级酒店培训了多年的服务员,去到东南亚乡村小馆子,可能完全不知道如何向顾客推荐椰浆饭,也不懂得当地的饮食文化礼仪。这并不是因为他不够聪明,而是他从来没有接受过这方面的训练。

当今最强大的视觉语言模型——也就是那些既能"看图"又能"说话"的AI系统——面临的恰恰是同样的困境。这类模型的训练数据绝大部分来自互联网上以英语为主的内容,而互联网上的内容本身就极度不均衡:西方国家、东亚发达地区产出的数字内容远远多于东南亚、南亚、非洲等地区。结果就是,AI系统在被问到欧美文化内容时表现出色,一旦遇到东南亚的传统服饰、地方建筑、本土食物,就开始"答非所问"甚至给出带有刻板印象的回答。

研究团队对此做了系统性观察。他们发现,现有的多语言视觉语言模型,包括MAYA-8B、PaliGemma-2-10B、Pangea-7B、Qwen2-VL-7B、Gemma-3等一系列知名系统,在面对专门为东南亚文化设计的测试题目时,表现都不尽如人意。这些测试包括SEAVQA(东南亚视觉问答)、CVQA(文化多样性视觉问答)和World Cuisines(全球菜肴识别)等基准测试。

与此同时,确实存在一些专门为特定地区定制的AI模型,比如专为阿拉伯语设计的VIOLET、为韩语优化的VARCO-VISION、以及面向东南亚的SEA-LION-VL。这些"本土专家"在自己的主场表现很好,但一旦被问到更广泛的全球性问题,它们就显得力不从心了。这就像一位精通川菜的厨师,突然被要求制作法式大餐时会手忙脚乱。

于是,研究者们面对一个两难困境:要么是"全能选手"(全球模型)——什么都会一点但对东南亚文化一知半解;要么是"地方专家"(区域模型)——本地文化了解透彻但出了自己的地盘就不行了。这项研究的核心,就是找到一条同时兼顾两者的道路。

二、"拟人化区域适配":给AI量身定制的文化融合框架

研究团队提出了一个听起来有点学术但本质上非常直观的框架,称为"拟人化区域适配"(Anthropogenic Regional Adaptation)。"拟人化"这个词在这里的意思是,AI的目标是理解人类文化和社会活动,而不仅仅是识别图像中的物理特征。

从数学上说,研究者把整个世界划分成若干个"区域",每个区域有自己独特的评价标准和文化特征。模型的目标是在优化特定目标区域表现的同时,不能让全球范围内的整体表现大幅下滑。为了量化这种平衡,他们引入了一个叫做"全球化因子"的参数,用希腊字母α表示,取值在0到1之间。当α接近1时,模型更注重维持全球通用能力;当α接近0时,模型更专注于强化某个特定区域的表现。

更巧妙的是,研究团队并没有凭空设定这个参数,而是借用了一个来自社会科学领域的工具——KOF全球化指数(Konjunkturforschungsstelle Globalization Index)。这个指数由瑞士苏黎世联邦理工学院每年更新,衡量全球190个国家在政治、经济、社会等多个维度上的全球化程度。

用一个直观的例子来理解:新加坡是一个高度全球化的城市国家,与国际接轨程度极高,所以针对新加坡优化的AI模型应该设置一个较高的α值,确保其保持强大的全球通用能力。相比之下,缅甸或老挝的全球化程度相对较低,社会文化更具本地特色,针对这些国家的模型可以把α设得低一些,更侧重本地文化的表达。

研究团队以2023年KOF全球化指数中的"事实人际交往"分项作为基准,计算东南亚区域所有国家的平均值,得出α=0.43。这意味着在评估东南亚模型时,43%的权重给全球通用表现,57%的权重给东南亚地区特定表现。这个比例的确定不是研究者拍脑袋定的,而是有可量化、可复现的社会科学依据。

研究者还指出,随着时间推移,全球化指数本身也在变化——从1993年到2023年,东南亚地区的全球化指数从36.04稳步上升到43.40。这意味着这套评价体系会随时代变化而自然调整,不会一成不变。

三、"GG-EZ":让AI轻松实现文化适配的两步走方法

框架有了,具体怎么做呢?研究团队设计了一套名为"GG-EZ"的方法,全称是"地理泛化轻松实现"(Geographical Generalization Made Easy)。这个名字带着一丝幽默感,暗指这个方法的操作相对简单却效果显著。

GG-EZ的核心思路可以用改造一位厨师来比喻。假设你有一位接受过严格法式料理训练的厨师(全球模型),现在你希望他也能做出地道的东南亚菜肴,同时不要忘掉他原本掌握的法式技艺。GG-EZ分两步走完成这个改造。

第一步叫做"区域质量过滤"。这一步的任务是精心挑选用于培训的食材和食谱。具体来说,研究团队首先用一个地理过滤器,从海量数据中筛选出真正属于东南亚文化背景的内容。一张越南河粉的图片和一篇关于菲律宾节日的文字,会被保留下来;而一张通用的意大利面图片就会被过滤掉。

光靠地理标签还不够,因为互联网上东南亚相关的内容质量良莠不齐。研究团队还引入了一个专门评估数据质量的"奖励模型"(UnifiedReward),为每条数据打分,只保留得分在3分及以上的高质量内容。他们对比了四种不同的质量评估工具:ImageReward、HPSv2、VisionReward-Image和UnifiedReward,最终选择UnifiedReward的原因是它在与人类评判一致性方面表现良好(正确率44.2%),同时支持批量高效处理,适合大规模数据过滤。

除了筛选现有数据,团队还做了一件重要的事:把高质量的英语数据翻译成东南亚地区的主要语言,包括印度尼西亚语、马来语、泰语、越南语、菲律宾语、高棉语、老挝语、中文和泰米尔语。对于高棉语和老挝语这样的小语种,他们专门测试了多种翻译工具的效果,最终为不同语言选择了最合适的翻译系统——Gemini-2.5-Flash被用于泰语、缅甸语、老挝语、高棉语和泰米尔语,而Gemma-3-27B则被用于印度尼西亚语、越南语、标准马来语、菲律宾语和中文。

第二步叫做"全球-区域精炼",分为两个环节:先用精心筛选的东南亚数据对全球模型进行微调训练,把它变成一个东南亚文化专家;然后用一种叫做"模型合并"的技术,把这个新培训出来的区域专家模型与原始的全球模型进行线性融合。融合的比例用参数β来控制:β=1意味着完全用区域专家模型,β=0意味着完全用原始全球模型,而β=0.1则表示10%区域模型加90%原始全球模型的组合。

模型合并这个概念值得多解释几句。当你对一个AI模型进行专门训练时,它在新领域的表现会提升,但往往会"忘记"一些原本掌握的能力,这个现象叫做"灾难性遗忘"——就好比那位厨师学了两年东南亚菜之后,突然发现自己连红酒炖牛肉都做不好了。模型合并的作用,就是让两个版本的"知识"融合在一起,既保住了原有能力,又融入了新学到的文化知识。

四、三种架构、十一个国家、一场大规模实验

研究团队没有满足于在一种AI架构上验证方法,而是在三种截然不同的视觉语言模型架构上同时进行了实验,以东南亚地区(涵盖新加坡、印度尼西亚、马来西亚、文莱、泰国、菲律宾、越南、缅甸、柬埔寨、老挝、东帝汶共11个国家,总人口约7亿)作为案例研究对象。

第一种是大规模视觉语言模型SEA-VLM,基于Google的Gemma-3 27B模型(一个拥有270亿参数的庞大系统)。这个模型被用来回答关于图像内容的问题,比如识别东南亚传统服饰、理解本地文化习俗。训练时使用了批次大小64、学习率2e-5、权重衰减0.01,训练了3个完整轮次。在此之前,还对Gemma-3进行了持续预训练,使用了SEA-VL、XM3600和Flickr30k等数据集的东南亚语言翻译版本。

第二种是文字转图片的扩散模型SEA-ImageGen,基于Stability AI的SDXL(3.5B参数)。这类模型的任务是根据文字描述生成图片——比如你输入"一盘马来西亚椰浆饭",它就应该生成一张真实、准确、有文化细节的椰浆饭图片。训练时只微调了模型中的UNet模块,保留了VAE模块不变,使用批次大小32、学习率1e-5,训练了4个轮次。

第三种是视觉语言嵌入模型SEA-VL Embed,基于Google的SigLIP-2(1B参数)。这类模型的功能是理解图文之间的关联性,比如判断一张图片和一段文字描述是否匹配。这个模型进行了完整的全参数微调,使用批次大小128、学习率5e-6、权重衰减0.001,训练了2个轮次。

为了评估模型的表现,研究团队还专门构建了两个人工标注的测试集。第一个叫SEA-VL VQA,包含约1100道视觉问答题,覆盖马来语、越南语、泰语、印度尼西亚语、菲律宾语、泰米尔语、高棉语、中文、缅甸语共9种语言,所有题目都由母语使用者创作,并经过两位额外的母语使用者审核。题目要求紧密结合图像中的文化元素,比如传统服饰、本地美食、宗教习俗、建筑风格,而不是泛泛的"图中有什么"这类通用问题。第二个叫SEA AYA,是将Aya Vision Benchmark中的135道视觉语言题目翻译成6种东南亚语言(泰语、马来语、菲律宾语、泰米尔语、中文、缅甸语),覆盖图像描述、图表理解、视觉推理等9种任务类型。

五、实验结果:小改动,大效果

实验结果验证了GG-EZ方法的有效性,但也揭示了一些出人意料的细节。

在大规模视觉语言模型方面,未经过模型合并的纯微调版本SEA-Gemma-3表现呈现出矛盾的特征。在专门针对东南亚文化的SEAVQA测试中,它的得分从41.0提升到41.9,显示出对区域文化有所掌握。然而,在更通用的CVQA和WorldCuisine测试中,它的表现却大幅下滑,CVQA均分从67.2跌至35.6,WorldCuisine从59.8跌至48.5。这正是"灾难性遗忘"的体现——专攻东南亚之后,它在更广泛的文化理解上退步了。

加入模型合并之后,情况发生了戏剧性的改变。将10%的区域微调模型与90%的原始Gemma-3合并后(即SEA-Gemma-3 10%),模型在所有指标上都超过了原始Gemma-3:全球通用表现从63.5提升到64.4,东南亚专项表现从56.3提升到63.8,综合的"全球-区域平衡分"(GRP分)从59.4提升到64.1。这相当于用仅仅10%的区域知识"点缀",就让模型既保住了全球能力,又获得了东南亚文化加持。

5%合并比例(SEA-Gemma-3 5%)也展现了相似的提升,GRP分达到64.0。而50%和70%的合并比例则出现了不同程度的整体下滑,说明区域知识的比例并非越多越好,过多的区域专项训练会在全球表现上造成损失,合并比例需要仔细调整。

人工评估的结果提供了更细腻的视角。评估者(每种语言均为母语使用者)对三个模型的回答进行了排名:SEA-Gemma-3(无合并)在东南亚语言中整体排名最高,尤其在菲律宾语(2.75分)、印度尼西亚语(2.29分)、泰语(2.33分)方面表现出色,证明纯区域微调确实让模型在本地语言上更接地气。而原始Gemma-3在全球任务上依然最强(2.54分)。SEA-Gemma-3 10%则在越南语(2.61分,最高)和马来语(2.25分)方面取得最佳,综合GRP分为2.31,高于原始Gemma-3的2.29,在全球表现(2.42分)略低于原版的情况下,实现了整体最优的平衡。

在图片生成模型方面,即便是没有模型合并的纯微调版SEA-SDXL,在通用图像生成基准DPGBench上的总分也略有提升(从73.75升至74.32),这说明东南亚区域训练对图像生成质量没有拖累。经过25%合并后的SEA-SDXL 25%,DPGBench总分达到74.75,是所有变体中最高的。在专门评估东南亚文化准确性的人工评估中,SEA-SDXL 25%在传统服饰、地标建筑、本地美食三个维度的正确性和自然度上,全面超过了原始SDXL和纯微调版SEA-SDXL。以椰浆饭为例,原始SDXL生成的图片虽然也有白饭和鸡蛋,但缺少黄瓜、花生和凤尾鱼这些关键配料;而SEA-SDXL 25%生成的图片则包含了这些细节,更接近真实的马来西亚椰浆饭。

在视觉语言嵌入模型方面,有一个值得关注的有趣现象:纯微调的SEA-SigLIP2不仅在东南亚区域测试上超过了原始SigLIP2,甚至在非东南亚地区的测试上也有所提升。这可能意味着东南亚文化训练数据中包含的视觉多样性,对模型的整体理解能力有正向迁移作用。经过75%合并的SEA-SigLIP2 75%表现最为均衡,SEAVQA总分29.66,在印度尼西亚(30.05)和越南(28.75)数据上创下最高分,同时全球CVQA分依然保持在27.12的较高水准,综合GRP分达到27.96,远超原始模型的25.17。

六、数据配方的学问:并非越多越好

研究者们对数据配方做了一系列细致的消融实验,结果揭示了一个重要教训:在AI训练中,数据的质量和形式比数量更重要。

基准数据集是将MAmmoTH-VL指令数据翻译成10种东南亚语言(共约25万条数据)的完整版本,在SEA-VQA测试中得到39.6分。当研究者尝试只使用其中20%的数据时,分数骤降至13.0分,下滑幅度超过70%,证明数据规模是基础保障,不能随意压缩。

接下来,研究者在基准数据集的基础上,分别加入了不同类型的额外文化数据,结果大相径庭。加入CulturalGround数据集(来自斯坦福大学与卡内基梅隆大学合作构建的多文化图文数据集)的开放式问答版本,分数从39.6升至41.9,带来了温和但积极的提升。然而,加入同一数据集的多项选择题版本,分数却大幅下滑至21.6——同样的图片,只是换了问题形式,效果竟然完全相反!研究者认为,多项选择题的格式可能与预训练时使用的问答格式存在冲突,导致模型混淆。

加入WorldCuisine美食数据集的结果同样令人意外:分数降至30.4,比基准还低。研究者的解释是,WorldCuisine专注于食物识别这一个细分领域,过于单一的训练数据使模型的注意力过度集中在菜肴上,反而削弱了它对其他文化元素(如地标、传统习俗、历史文化)的理解能力。

这个发现的实践意义在于:在区域适配过程中,不能简单地"往锅里扔越多食材越好",而要精心考量每种数据的类型、格式、领域覆盖范围,以及它们与目标任务的匹配程度。

七、全球化因子的深层意义:AI也需要与时俱进

研究中还有一个常被忽视但颇具哲学深度的讨论:如何决定一个模型应该在多大程度上"入乡随俗",在多大程度上保持"全球视野"?

研究团队的答案是,这不应该是一个固定的主观判断,而应该反映目标区域的实际社会状态。他们展示了一组全球各地区从1993年到2023年的KOF全球化指数变化曲线。欧洲和中亚地区的全球化指数始终最高,稳定在70分以上;北美紧随其后;东南亚从1993年的36分稳步上升到2023年的43分;南亚和撒哈拉以南非洲则相对滞后。

从实际操作角度来看,α值的设置对模型的最终效果有显著影响。实验显示,在不同α值下,三个模型(原始Gemma-3、SEA-Gemma-3 10%和SEA-Gemma-3无合并版)的GRP分排名会发生变化。当α接近0时,纯区域微调模型占优;当α接近1时,原始全球模型占优;而在α=0.43附近,SEA-Gemma-3 10%取得了最高的GRP分。这说明,如果你用一个不符合目标区域实际全球化程度的α值来评估模型,很可能得出错误的结论。

随着全球化指数随时间变化,评估模型的标准也应该动态调整。研究团队认为,这种与社会现实挂钩的动态评估体系,比任何静态的主观设定都更具科学性。

归根结底,这项研究解决的其实是一个关于"包容性"的问题:全球化的AI技术不能只服务于数字富裕地区的用户,也应该能够理解和服务于那些文化独特、语言多样的地区。GG-EZ证明了这件事不需要从头开发一个全新的模型,只需要对现有强大模型进行精心的"文化改造",就能让它既保持全球竞争力,又获得对特定地区的深刻理解。

更重要的是,这套方法是架构无关的——无论是文字问答模型、图片生成模型还是图文匹配模型,GG-EZ都能派上用场。这意味着它具有广泛的推广潜力,未来可以用于非洲、南亚、中东等其他代表性不足的地区,帮助更多人获得真正"懂自己文化"的AI服务。

当然,研究也存在一些局限和尚待探索的方向。模型合并的最优β值在不同架构之间存在差异(VLM的最优值约为10%,Embed模型约为75%,扩散模型约为25%),目前还没有一个能自动预测最优β的通用方法。此外,实验主要集中在东南亚地区,方法在其他区域的效果仍有待验证。对于感兴趣的读者,可以通过arXiv:2604.11490获取完整论文,研究团队也在Hugging Face上公开了所有训练数据、评估数据集和模型权重,供研究者直接使用和进一步探索。

Q&A

Q1:GG-EZ方法的两个步骤分别是什么,为什么需要模型合并?

A:GG-EZ分两步走。第一步是用地理过滤器和质量评分模型,从海量数据中筛选出高质量的区域文化数据,同时把英语数据翻译成目标语言。第二步是先用这些数据对全球模型进行微调,再把微调后的区域模型和原始全球模型按比例线性融合。模型合并的必要性在于,纯微调往往会让模型"忘记"原本掌握的通用能力,合并能把区域知识和全球知识同时保留在模型里。

Q2:全球化因子α=0.43是怎么确定的,为什么不直接用固定值?

A:α的值来源于2023年KOF全球化指数中东南亚各国"事实人际交往"分项的平均值。选择这个指数而非固定值,是因为它能客观反映一个地区与全球社会的实际融合程度——全球化程度高的地区(如新加坡)应该更注重保持全球通用能力,而全球化程度低的地区可以更侧重本地文化。此外,全球化指数会随时间变化,评估标准也能随之动态更新,避免了主观判断带来的偏差。

Q3:为什么加入更多东南亚文化数据反而会让模型变差?

A:研究发现,不是所有数据都有正向效果。加入同一数据集的多项选择题版本会拖累模型,可能是因为格式与预训练产生冲突。加入专门的美食识别数据集WorldCuisine后,模型过于专注食物识别,反而削弱了对地标、传统服饰、历史文化等其他方面的理解。这说明区域数据的类型、格式、领域覆盖范围都需要精心设计,盲目堆砌数据会适得其反。