Cohere、SEACrowd等机构的视觉语言模型区域化适配研究全解析,视觉分区

这项由Cohere、SEACrowd、AI Singapore、MBZUAI、卡内基梅隆大学、斯坦福大学、布朗大学等数十家机构联合完成的研究，发表于2026年4月，论文编号为arXiv:2604.11490，有兴趣深入了解的读者可以通过该编号查询完整论文。研究聚焦于一个听起来有些抽象但其实与每个人都息息相关的问题：当人工智能走向全球，它真的能理解不同地区的文化吗？

你有没有想过，当一个东南亚人对着手机AI助手展示一张炸香蕉饼或者宋卡湖的照片时，AI是否真的"认识"这些东西？或者当一个泰国人问AI"这道菜是什么"，AI是否能给出真正符合当地文化背景的回答？事实往往令人失望：绝大多数AI系统是在以英语为主的西方数据上训练的，它们对非洲、印度、中东、东南亚等地区的文化认知，可以说相当贫乏。

正是为了解决这个现实问题，来自全球超过30所顶尖机构的研究人员联手，提出了一套全新的框架和方法。他们的核心主张是：AI不仅要"聪明"，还要"有文化"，而且这两件事不应该互相矛盾。

一、为什么AI会"水土不服"，以及这件事有多严重

以餐厅的服务员做比较，能解释清楚这个问题的根源。一位在纽约五星级酒店培训了多年的服务员，去到东南亚乡村小馆子，可能完全不知道如何向顾客推荐椰浆饭，也不懂得当地的饮食文化礼仪。这并不是因为他不够聪明，而是他从来没有接受过这方面的训练。

当今最强大的视觉语言模型——也就是那些既能"看图"又能"说话"的AI系统——面临的恰恰是同样的困境。这类模型的训练数据绝大部分来自互联网上以英语为主的内容，而互联网上的内容本身就极度不均衡：西方国家、东亚发达地区产出的数字内容远远多于东南亚、南亚、非洲等地区。结果就是，AI系统在被问到欧美文化内容时表现出色，一旦遇到东南亚的传统服饰、地方建筑、本土食物，就开始"答非所问"甚至给出带有刻板印象的回答。

研究团队对此做了系统性观察。他们发现，现有的多语言视觉语言模型，包括MAYA-8B、PaliGemma-2-10B、Pangea-7B、Qwen2-VL-7B、Gemma-3等一系列知名系统，在面对专门为东南亚文化设计的测试题目时，表现都不尽如人意。这些测试包括SEAVQA（东南亚视觉问答）、CVQA（文化多样性视觉问答）和World Cuisines（全球菜肴识别）等基准测试。

与此同时，确实存在一些专门为特定地区定制的AI模型，比如专为阿拉伯语设计的VIOLET、为韩语优化的VARCO-VISION、以及面向东南亚的SEA-LION-VL。这些"本土专家"在自己的主场表现很好，但一旦被问到更广泛的全球性问题，它们就显得力不从心了。这就像一位精通川菜的厨师，突然被要求制作法式大餐时会手忙脚乱。

于是，研究者们面对一个两难困境：要么是"全能选手"（全球模型）——什么都会一点但对东南亚文化一知半解；要么是"地方专家"（区域模型）——本地文化了解透彻但出了自己的地盘就不行了。这项研究的核心，就是找到一条同时兼顾两者的道路。

二、"拟人化区域适配"：给AI量身定制的文化融合框架

研究团队提出了一个听起来有点学术但本质上非常直观的框架，称为"拟人化区域适配"（Anthropogenic Regional Adaptation）。"拟人化"这个词在这里的意思是，AI的目标是理解人类文化和社会活动，而不仅仅是识别图像中的物理特征。

从数学上说，研究者把整个世界划分成若干个"区域"，每个区域有自己独特的评价标准和文化特征。模型的目标是在优化特定目标区域表现的同时，不能让全球范围内的整体表现大幅下滑。为了量化这种平衡，他们引入了一个叫做"全球化因子"的参数，用希腊字母α表示，取值在0到1之间。当α接近1时，模型更注重维持全球通用能力；当α接近0时，模型更专注于强化某个特定区域的表现。

更巧妙的是，研究团队并没有凭空设定这个参数，而是借用了一个来自社会科学领域的工具——KOF全球化指数（Konjunkturforschungsstelle Globalization Index）。这个指数由瑞士苏黎世联邦理工学院每年更新，衡量全球190个国家在政治、经济、社会等多个维度上的全球化程度。

用一个直观的例子来理解：新加坡是一个高度全球化的城市国家，与国际接轨程度极高，所以针对新加坡优化的AI模型应该设置一个较高的α值，确保其保持强大的全球通用能力。相比之下，缅甸或老挝的全球化程度相对较低，社会文化更具本地特色，针对这些国家的模型可以把α设得低一些，更侧重本地文化的表达。

研究团队以2023年KOF全球化指数中的"事实人际交往"分项作为基准，计算东南亚区域所有国家的平均值，得出α=0.43。这意味着在评估东南亚模型时，43%的权重给全球通用表现，57%的权重给东南亚地区特定表现。这个比例的确定不是研究者拍脑袋定的，而是有可量化、可复现的社会科学依据。

研究者还指出，随着时间推移，全球化指数本身也在变化——从1993年到2023年，东南亚地区的全球化指数从36.04稳步上升到43.40。这意味着这套评价体系会随时代变化而自然调整，不会一成不变。

三、"GG-EZ"：让AI轻松实现文化适配的两步走方法

框架有了，具体怎么做呢？研究团队设计了一套名为"GG-EZ"的方法，全称是"地理泛化轻松实现"（Geographical Generalization Made Easy）。这个名字带着一丝幽默感，暗指这个方法的操作相对简单却效果显著。

GG-EZ的核心思路可以用改造一位厨师来比喻。假设你有一位接受过严格法式料理训练的厨师（全球模型），现在你希望他也能做出地道的东南亚菜肴，同时不要忘掉他原本掌握的法式技艺。GG-EZ分两步走完成这个改造。

第一步叫做"区域质量过滤"。这一步的任务是精心挑选用于培训的食材和食谱。具体来说，研究团队首先用一个地理过滤器，从海量数据中筛选出真正属于东南亚文化背景的内容。一张越南河粉的图片和一篇关于菲律宾节日的文字，会被保留下来；而一张通用的意大利面图片就会被过滤掉。

光靠地理标签还不够，因为互联网上东南亚相关的内容质量良莠不齐。研究团队还引入了一个专门评估数据质量的"奖励模型"（UnifiedReward），为每条数据打分，只保留得分在3分及以上的高质量内容。他们对比了四种不同的质量评估工具：ImageReward、HPSv2、VisionReward-Image和UnifiedReward，最终选择UnifiedReward的原因是它在与人类评判一致性方面表现良好（正确率44.2%），同时支持批量高效处理，适合大规模数据过滤。

除了筛选现有数据，团队还做了一件重要的事：把高质量的英语数据翻译成东南亚地区的主要语言，包括印度尼西亚语、马来语、泰语、越南语、菲律宾语、高棉语、老挝语、中文和泰米尔语。对于高棉语和老挝语这样的小语种，他们专门测试了多种翻译工具的效果，最终为不同语言选择了最合适的翻译系统——Gemini-2.5-Flash被用于泰语、缅甸语、老挝语、高棉语和泰米尔语，而Gemma-3-27B则被用于印度尼西亚语、越南语、标准马来语、菲律宾语和中文。

第二步叫做"全球-区域精炼"，分为两个环节：先用精心筛选的东南亚数据对全球模型进行微调训练，把它变成一个东南亚文化专家；然后用一种叫做"模型合并"的技术，把这个新培训出来的区域专家模型与原始的全球模型进行线性融合。融合的比例用参数β来控制：β=1意味着完全用区域专家模型，β=0意味着完全用原始全球模型，而β=0.1则表示10%区域模型加90%原始全球模型的组合。

模型合并这个概念值得多解释几句。当你对一个AI模型进行专门训练时，它在新领域的表现会提升，但往往会"忘记"一些原本掌握的能力，这个现象叫做"灾难性遗忘"——就好比那位厨师学了两年东南亚菜之后，突然发现自己连红酒炖牛肉都做不好了。模型合并的作用，就是让两个版本的"知识"融合在一起，既保住了原有能力，又融入了新学到的文化知识。

四、三种架构、十一个国家、一场大规模实验

研究团队没有满足于在一种AI架构上验证方法，而是在三种截然不同的视觉语言模型架构上同时进行了实验，以东南亚地区（涵盖新加坡、印度尼西亚、马来西亚、文莱、泰国、菲律宾、越南、缅甸、柬埔寨、老挝、东帝汶共11个国家，总人口约7亿）作为案例研究对象。

第一种是大规模视觉语言模型SEA-VLM，基于Google的Gemma-3 27B模型（一个拥有270亿参数的庞大系统）。这个模型被用来回答关于图像内容的问题，比如识别东南亚传统服饰、理解本地文化习俗。训练时使用了批次大小64、学习率2e-5、权重衰减0.01，训练了3个完整轮次。在此之前，还对Gemma-3进行了持续预训练，使用了SEA-VL、XM3600和Flickr30k等数据集的东南亚语言翻译版本。

第二种是文字转图片的扩散模型SEA-ImageGen，基于Stability AI的SDXL（3.5B参数）。这类模型的任务是根据文字描述生成图片——比如你输入"一盘马来西亚椰浆饭"，它就应该生成一张真实、准确、有文化细节的椰浆饭图片。训练时只微调了模型中的UNet模块，保留了VAE模块不变，使用批次大小32、学习率1e-5，训练了4个轮次。

第三种是视觉语言嵌入模型SEA-VL Embed，基于Google的SigLIP-2（1B参数）。这类模型的功能是理解图文之间的关联性，比如判断一张图片和一段文字描述是否匹配。这个模型进行了完整的全参数微调，使用批次大小128、学习率5e-6、权重衰减0.001，训练了2个轮次。

为了评估模型的表现，研究团队还专门构建了两个人工标注的测试集。第一个叫SEA-VL VQA，包含约1100道视觉问答题，覆盖马来语、越南语、泰语、印度尼西亚语、菲律宾语、泰米尔语、高棉语、中文、缅甸语共9种语言，所有题目都由母语使用者创作，并经过两位额外的母语使用者审核。题目要求紧密结合图像中的文化元素，比如传统服饰、本地美食、宗教习俗、建筑风格，而不是泛泛的"图中有什么"这类通用问题。第二个叫SEA AYA，是将Aya Vision Benchmark中的135道视觉语言题目翻译成6种东南亚语言（泰语、马来语、菲律宾语、泰米尔语、中文、缅甸语），覆盖图像描述、图表理解、视觉推理等9种任务类型。

五、实验结果：小改动，大效果

实验结果验证了GG-EZ方法的有效性，但也揭示了一些出人意料的细节。

在大规模视觉语言模型方面，未经过模型合并的纯微调版本SEA-Gemma-3表现呈现出矛盾的特征。在专门针对东南亚文化的SEAVQA测试中，它的得分从41.0提升到41.9，显示出对区域文化有所掌握。然而，在更通用的CVQA和WorldCuisine测试中，它的表现却大幅下滑，CVQA均分从67.2跌至35.6，WorldCuisine从59.8跌至48.5。这正是"灾难性遗忘"的体现——专攻东南亚之后，它在更广泛的文化理解上退步了。

加入模型合并之后，情况发生了戏剧性的改变。将10%的区域微调模型与90%的原始Gemma-3合并后（即SEA-Gemma-3 10%），模型在所有指标上都超过了原始Gemma-3：全球通用表现从63.5提升到64.4，东南亚专项表现从56.3提升到63.8，综合的"全球-区域平衡分"（GRP分）从59.4提升到64.1。这相当于用仅仅10%的区域知识"点缀"，就让模型既保住了全球能力，又获得了东南亚文化加持。

5%合并比例（SEA-Gemma-3 5%）也展现了相似的提升，GRP分达到64.0。而50%和70%的合并比例则出现了不同程度的整体下滑，说明区域知识的比例并非越多越好，过多的区域专项训练会在全球表现上造成损失，合并比例需要仔细调整。

人工评估的结果提供了更细腻的视角。评估者（每种语言均为母语使用者）对三个模型的回答进行了排名：SEA-Gemma-3（无合并）在东南亚语言中整体排名最高，尤其在菲律宾语（2.75分）、印度尼西亚语（2.29分）、泰语（2.33分）方面表现出色，证明纯区域微调确实让模型在本地语言上更接地气。而原始Gemma-3在全球任务上依然最强（2.54分）。SEA-Gemma-3 10%则在越南语（2.61分，最高）和马来语（2.25分）方面取得最佳，综合GRP分为2.31，高于原始Gemma-3的2.29，在全球表现（2.42分）略低于原版的情况下，实现了整体最优的平衡。

在图片生成模型方面，即便是没有模型合并的纯微调版SEA-SDXL，在通用图像生成基准DPGBench上的总分也略有提升（从73.75升至74.32），这说明东南亚区域训练对图像生成质量没有拖累。经过25%合并后的SEA-SDXL 25%，DPGBench总分达到74.75，是所有变体中最高的。在专门评估东南亚文化准确性的人工评估中，SEA-SDXL 25%在传统服饰、地标建筑、本地美食三个维度的正确性和自然度上，全面超过了原始SDXL和纯微调版SEA-SDXL。以椰浆饭为例，原始SDXL生成的图片虽然也有白饭和鸡蛋，但缺少黄瓜、花生和凤尾鱼这些关键配料；而SEA-SDXL 25%生成的图片则包含了这些细节，更接近真实的马来西亚椰浆饭。

在视觉语言嵌入模型方面，有一个值得关注的有趣现象：纯微调的SEA-SigLIP2不仅在东南亚区域测试上超过了原始SigLIP2，甚至在非东南亚地区的测试上也有所提升。这可能意味着东南亚文化训练数据中包含的视觉多样性，对模型的整体理解能力有正向迁移作用。经过75%合并的SEA-SigLIP2 75%表现最为均衡，SEAVQA总分29.66，在印度尼西亚（30.05）和越南（28.75）数据上创下最高分，同时全球CVQA分依然保持在27.12的较高水准，综合GRP分达到27.96，远超原始模型的25.17。

六、数据配方的学问：并非越多越好

研究者们对数据配方做了一系列细致的消融实验，结果揭示了一个重要教训：在AI训练中，数据的质量和形式比数量更重要。

基准数据集是将MAmmoTH-VL指令数据翻译成10种东南亚语言（共约25万条数据）的完整版本，在SEA-VQA测试中得到39.6分。当研究者尝试只使用其中20%的数据时，分数骤降至13.0分，下滑幅度超过70%，证明数据规模是基础保障，不能随意压缩。

接下来，研究者在基准数据集的基础上，分别加入了不同类型的额外文化数据，结果大相径庭。加入CulturalGround数据集（来自斯坦福大学与卡内基梅隆大学合作构建的多文化图文数据集）的开放式问答版本，分数从39.6升至41.9，带来了温和但积极的提升。然而，加入同一数据集的多项选择题版本，分数却大幅下滑至21.6——同样的图片，只是换了问题形式，效果竟然完全相反！研究者认为，多项选择题的格式可能与预训练时使用的问答格式存在冲突，导致模型混淆。

加入WorldCuisine美食数据集的结果同样令人意外：分数降至30.4，比基准还低。研究者的解释是，WorldCuisine专注于食物识别这一个细分领域，过于单一的训练数据使模型的注意力过度集中在菜肴上，反而削弱了它对其他文化元素（如地标、传统习俗、历史文化）的理解能力。

这个发现的实践意义在于：在区域适配过程中，不能简单地"往锅里扔越多食材越好"，而要精心考量每种数据的类型、格式、领域覆盖范围，以及它们与目标任务的匹配程度。

七、全球化因子的深层意义：AI也需要与时俱进

研究中还有一个常被忽视但颇具哲学深度的讨论：如何决定一个模型应该在多大程度上"入乡随俗"，在多大程度上保持"全球视野"？

研究团队的答案是，这不应该是一个固定的主观判断，而应该反映目标区域的实际社会状态。他们展示了一组全球各地区从1993年到2023年的KOF全球化指数变化曲线。欧洲和中亚地区的全球化指数始终最高，稳定在70分以上；北美紧随其后；东南亚从1993年的36分稳步上升到2023年的43分；南亚和撒哈拉以南非洲则相对滞后。

从实际操作角度来看，α值的设置对模型的最终效果有显著影响。实验显示，在不同α值下，三个模型（原始Gemma-3、SEA-Gemma-3 10%和SEA-Gemma-3无合并版）的GRP分排名会发生变化。当α接近0时，纯区域微调模型占优；当α接近1时，原始全球模型占优；而在α=0.43附近，SEA-Gemma-3 10%取得了最高的GRP分。这说明，如果你用一个不符合目标区域实际全球化程度的α值来评估模型，很可能得出错误的结论。

随着全球化指数随时间变化，评估模型的标准也应该动态调整。研究团队认为，这种与社会现实挂钩的动态评估体系，比任何静态的主观设定都更具科学性。

归根结底，这项研究解决的其实是一个关于"包容性"的问题：全球化的AI技术不能只服务于数字富裕地区的用户，也应该能够理解和服务于那些文化独特、语言多样的地区。GG-EZ证明了这件事不需要从头开发一个全新的模型，只需要对现有强大模型进行精心的"文化改造"，就能让它既保持全球竞争力，又获得对特定地区的深刻理解。

更重要的是，这套方法是架构无关的——无论是文字问答模型、图片生成模型还是图文匹配模型，GG-EZ都能派上用场。这意味着它具有广泛的推广潜力，未来可以用于非洲、南亚、中东等其他代表性不足的地区，帮助更多人获得真正"懂自己文化"的AI服务。

当然，研究也存在一些局限和尚待探索的方向。模型合并的最优β值在不同架构之间存在差异（VLM的最优值约为10%，Embed模型约为75%，扩散模型约为25%），目前还没有一个能自动预测最优β的通用方法。此外，实验主要集中在东南亚地区，方法在其他区域的效果仍有待验证。对于感兴趣的读者，可以通过arXiv:2604.11490获取完整论文，研究团队也在Hugging Face上公开了所有训练数据、评估数据集和模型权重，供研究者直接使用和进一步探索。

Q&A

Q1：GG-EZ方法的两个步骤分别是什么，为什么需要模型合并？

A：GG-EZ分两步走。第一步是用地理过滤器和质量评分模型，从海量数据中筛选出高质量的区域文化数据，同时把英语数据翻译成目标语言。第二步是先用这些数据对全球模型进行微调，再把微调后的区域模型和原始全球模型按比例线性融合。模型合并的必要性在于，纯微调往往会让模型"忘记"原本掌握的通用能力，合并能把区域知识和全球知识同时保留在模型里。

Q2：全球化因子α=0.43是怎么确定的，为什么不直接用固定值？

A：α的值来源于2023年KOF全球化指数中东南亚各国"事实人际交往"分项的平均值。选择这个指数而非固定值，是因为它能客观反映一个地区与全球社会的实际融合程度——全球化程度高的地区（如新加坡）应该更注重保持全球通用能力，而全球化程度低的地区可以更侧重本地文化。此外，全球化指数会随时间变化，评估标准也能随之动态更新，避免了主观判断带来的偏差。

Q3：为什么加入更多东南亚文化数据反而会让模型变差？

A：研究发现，不是所有数据都有正向效果。加入同一数据集的多项选择题版本会拖累模型，可能是因为格式与预训练产生冲突。加入专门的美食识别数据集WorldCuisine后，模型过于专注食物识别，反而削弱了对地标、传统服饰、历史文化等其他方面的理解。这说明区域数据的类型、格式、领域覆盖范围都需要精心设计，盲目堆砌数据会适得其反。