楼主:
CCY0927 (只是个暱称罢了)
2025-07-04 22:22:21风传媒 https://www.storm.mg/article/11050445
让AI“讲台语嘛会通” Taiwan Tongues打造本土语言开源语料库
2025-07-04 20:47
魏鑫阳
https://i.meee.com.tw/bBTJdaQ.png
IMA资讯经理人协会发起“Taiwan Tongues台湾通用语料库计画”,集结作家、产业、学
界与政府之力,打造本土语言的开源语料库与训练框架,让AI也能学会“台湾话”。(魏
鑫阳摄)
在生成式AI席卷全球的此刻,语言差距正成为新的数位落差。主流AI模型习惯“听”英语
与简体中文,却“不懂”台语、客语、原住民族语,甚至连台湾华语的语境都难以掌握。
为了改变这个现况,IMA资讯经理人协会发起“Taiwan Tongues台湾通用语料库计画”,
集结作家、产业、学界与政府之力,打造本土语言的开源语料库与训练框架,让AI也能学
会“台湾话”。
“语言是活的文化,不能只是被保存,更要能被学习。”台语文学作家、吴三连奖得主胡
长松这么说。他率先捐出150万字创作,成为Taiwan Tongues计画首位释出语料的作家。
这份文化行动随即获得作家圈热烈响应,包括诗人向阳、曾贵海(由曾泽民代表出席)与
《文讯》杂志社长封德屏等文化工作者也加入阵容。
截至目前,Taiwan Tongues已累积超过500万字高品质语料,并上架至国际知名的Hugging
Face平台,开放非商业使用,提供语音助理、机器翻译、语言教学与文化推广应用。IMA
表示,未来将以“月入百万字”为目标,持续推动语料开放接力,拓展AI学习本土语言的
素材基础。
IMA协会理事长蔡祈岩:不只是给AI教材,还给它教案与考卷
“我们不只是给AI教材,还给它教案与考卷。”IMA协会理事长蔡祈岩指出,Taiwan
Tongues不是单纯的资料蒐集,而是一套完整的AI语言学习机制。
除了语料,计画更与快闪存储器大厂群联电子合作,开发以Reward Model与RL(强化学习
)微调技术为基础的语境训练框架。该框架能辨识多元观点、调整语意落差,协助企业打
造具在地语感的本土化AI应用。
此外,Taiwan Tongues也设计了台湾语境专属的模型评测机制,与阳明交通大学教授廖元
甫合作,使用教育部台语辞典与作家语料进行模型持续预训练(CPT)与监督微调(SFT)
。结果显示,经Taiwan Tongues语料训练的台语AI模型,其语意理解与生成能力显著提升
,学术与应用并进。
政府支持主权AI 文化自主成为科技战略
数位发展部次长林宜敬表示,AI正在重塑世界的语言与价值流动,台湾语言的能见度正面
临严峻挑战。主权AI不只是技术议题,更是文化自主与民主深化的战略选择。
林宜敬同步宣布3项策略支持Taiwan Tongues计画:由数位部统筹整合政府语料、交由IMA
协会推动民间语料授权与建置、强化政府与民间在语料开放、模型建构与应用评测上的协
力合作。
Wiki Taiwan启动 语言数位化迈向全民共编
为进一步扩展语料来源与文化能见度,Taiwan Tongues计画即将开启“Wiki Taiwan”工
作项目,从维基百科翻译起步,打造全民参与的台湾语言百科全书。首波目标为将140万
笔繁体中文条目翻译为台语,后续亦将同步推进客语、原住民族语内容扩充。
此举不仅可快速充实AI训练语料,更具实质意义。蔡祈岩指出,这是一场跨语种、跨社群
、跨世代的语言行动,让台湾语言不只存在于课本与书写,更深刻地进入AI的核心。
Taiwan Tongues不只是语料运动,更是文化复振与科技接轨的实践。从作家到工程师、从
文学到模型,这场语言革命正打破学科与产业边界,让AI理解台湾话。
蔡祈岩强调,“语言不只是记忆的载体,更是文化主体性的证明。”Taiwan Tongues希望
召唤更多来自不同领域的参与者,一起让台语、客语在AI浪潮中站稳脚步,发声、被听见
,并且真正被理解。