[新闻] 繁中资料量落后简中不利台AI语言模型 hvariables PTT批踢踢实业坊

[新闻] 繁中资料量落后简中不利台AI语言模型

楼主: hvariables (Speculative Male) 2023-11-05 20:18:12

https://ec.ltn.com.tw/article/paper/1613748
繁中资料量落后简中不利台AI语言模型
2023/11/05 05:30
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
国科会推动台版生成式AI，结合产官学研开发“TAIDE”，耗时4个月推出初阶成果，投入
70亿个参数量，帮AI上繁体中文课，前在自动摘要、翻译文本、写信、写文章等都有不错
表现。（资料照，记者吴柏轩摄）
国科会发展台版可信任AI对话引擎TAIDE 防堵中国偏见论述
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
国科会今年6月发表“可信任人工智能对话引擎”（TAIDE）7B模型。国科会主委吴政忠（
左）表示，TAIDE是“打地基”，未来将提供公私部门加值应用，并守住台湾拥有的珍贵
繁体中文语料。（中央社资料照）
〔记者欧宇祥／台北报导〕近年中国影视创作、短影音平台大举跨境渗透台湾，时而引发
对台认知作战的疑虑，且台湾发展生成式AI（人工智能）等技术也须留意资料准确性、以
免生出不当答案。AI领域专家坦言，目前繁体中文资料量远少于简体中文，加上台湾网络
社群的知识性分享风气相对不盛，对我国开发AI大型语言模型相当不利。
台算力、资料资源相对有限
ChatGPT带动AI军备竞赛，我国政府是由国科会发展“可信任人工智能对话引擎”（TAIDE
）计画，产官学各自前进；不过发展AI烧钱，台湾算力、资料等资源都相对有限，研究单
位资金更紧缺，日前研究经费仅约三十万的中研院AI语言模型，因出现中国观点的回应，
引起轩然大波。
中研院资通安全专题中心执行长李育杰指出，生成式AI需要大量文本资料用做训练、再运
用机器运算进行“接龙”、产出内容，受资料集影响大；而中研院争议是源自于使用的
Llama 2模型，因含有中国资料集、易产生相应观点答案，加上中企、研究单位大力投入
AI研发，都凸显台湾需要自己的大型语言模型。
台湾人工智能协会理事黄逸华分析，目前开发AI模型可将简中资料转换成繁中，或将简中
资料剃除，但繁中资料量相对较少，可能使AI模型较容易出现幻觉（Hallucinations；即
无法作答的空白，可能以虚构来填补答案），或功能会较为侷限，且此问题是十数年积累
、短期难解，若使用PTT等平台资料，处理成本又高。
李育杰也认为，PTT、Dcard等台湾本土社群的用语生命周期短，加上资料杂乱可能蕴含谩
骂、火星文，品质不一定好，若要用在AI大型语言模型训练需再经处理；即使都以繁中资
料训练，AI仍可能生成不如预期的答案，以现行技术无法一○○％掌控规则与结果，只能
尽量隔绝不希望AI学习的资料与内容。

继续阅读

Re: [请益]成大vs台科peter98 [请益] 29岁私立学想转职，推荐语言KEVINTEN175 肝指数geoege022702 Re: [请益]成大vs台科tomtowin [请益]成大vs台科beck013593 [新闻] 科技业迎寒冬！他好奇“什么科系最惨？”cjol [新闻] 联发科家庭日首办路跑！蔡明介：26年跨三qazxc1156892 [新闻] 全台收入最高企业鸿海连续称霸榜首15年Matz [新闻] 晶圆双雄台积电、联电冲刺先进封装hvariables [新闻] 鸿海低轨卫星 7日升空 “珍珠号”历时两wahaha23

[新闻] 繁中资料量落后简中 不利台AI语言模型

[新闻] 繁中资料量落后简中不利台AI语言模型