大皖新闻讯由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。如何弥合这一数字鸿沟,7月28日,作为2025世界人工智能大会(WAIC)技术方向的重磅议题,“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”在上海举办。研讨会汇聚了来自中国、英国、匈牙利、塞尔维亚、泰国、马来西亚等20多个国家和地区的产学研代表,围绕“共建智能语言新生态,赋能全球数字文明”主题,共商推进多语言AI技术普惠发展新路径,探索构建更加公平包容的全球AI治理体系。
让每个人都拥有自己的“巴别鱼”
英国萨里大学“以人为本的人工智能研究中心”联合主任宋一晢教授认为,多语言AI犹如现实版的“巴别鱼”,源自科幻小说《银河系漫游指南》中那种能实时翻译任何语言的神奇生物,正在打破人们之间的语言隔阂。
宋一晢说,人工智能的终极目标是服务人类价值、赋能每一个个体,不能只属于少数人,所以,要将AI从“云端”带到“用户端”。宋一晢介绍了团队开发的DemoFusion与NitroFusion技术,能够在一块普通GPU上运行超高清、实时的生成式AI模型,让每一位创作者都能在本地设备上拥有“超级计算能力”。科大讯飞提出的“用人工智能建设美好世界”的使命,让宋一晢印象深刻,“美好的世界是我们都想要的,在这个世界里,人工智能不是主导者,而是赋能者。”
匈牙利语言学研究中心总干事GáborPrószéky教授表示,数据质量优于数据体量,是构建可信大语言模型的关键。他说,匈牙利语作为粘着性语言,具有复杂的词缀组合及自由语序,这为大语言模型的token划分和长距离依赖建模带来独特挑战。团队开发的PULI模型家族已促成与中国AI同行的合作,通过HuGME评估框架实现了从训练、语料建设到实际应用的完整闭环。
每一种语言都应有属于自己的大模型
塞尔维亚诺维萨德大学技术科学学院主任VladoDelić教授表示,塞尔维亚语在通用模型中token占比不足0.1%,远低于斯洛文尼亚语。“语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型。”他说,为避免在医疗、法律等关键领域出现误译风险,必须构建符合本国语言特点和文化语境的国家级大模型。
以色列人类语言技术协会创始人兼董事AvnerAlgom认为“语言服务不能只为大语种设计,小语种也应拥有技术平权”。泰国皇家理工大学、坦亚武里皇家理工大学科学与科技学院院长NipatJongsawat也表示,“语言主权不是选择,而是国家的战略必要。”马来西亚拉曼理工大学企业孵化与创业中心副主任YuYongPoh提出,“文化理解力比参数规模更重要。”柬埔寨金边皇家大学计算机科学系教授HengSovannarith指出,“如果语言被技术遗忘,这个群体也会被时代遗忘。”
面对这一系列挑战,国际合作成为重要解决路径。塞尔维亚诺维萨德大学技术科学学院主任VladoDelić教授表示,希望通过与科大讯飞等企业的合作,将本国语言技术纳入全球AI生态。据了解,双方已启动合作规划,计划将塞尔维亚语及相关南斯拉夫语言接入讯飞的翻译设备与智能应用系统,并以2027年贝尔格莱德世博会为阶段目标,打造本地化大模型。
中国方案为世界AI发展提供第二种选择
科大讯飞研究院院长刘聪在主题演讲中提出,“我们希望构建全方位的多语言大模型和它的应用,给世界提供第二种选择。”
刘聪介绍,最新升级的星火大模型X1可以支持130+语种,在阿语、德语、法语、韩语、日语等重点语种整体效果已超过GPT-4.1。通过混合语种路由等技术创新,星火语音大模型支持100个语种语音识别,整体效果超过WhisperV3,星火语音合成大模型支持55个语种语音合成,效果业内领先。至今,科大讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台套设备提供语音交互支持,涵盖23种语言,在非洲、东南亚等国家实地落地,为“中国智造”走出去提供语言与AI能力保障。
刘聪表示,未来的多语言模型将围绕三个核心方向展开:一是推进“语音+文本”多模态数据的共建共享,打通不同模态之间的语义壁垒;二是打造具备原生多语种语音能力的大模型底座,增强模型对全球语言生态的原生感知力;三是构建融合跨语言知识迁移能力的多语言通用大模型,实现不同语种间的知识迁移与泛化能力提升,全面支撑全球多语言AI应用发展。
大皖新闻记者项磊实习生何子豪