[新闻] 繁中资料量落后简中 不利台AI语言模型

楼主: hvariables (Speculative Male)   2023-11-05 20:18:12
https://ec.ltn.com.tw/article/paper/1613748
繁中资料量落后简中 不利台AI语言模型
2023/11/05 05:30
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
国科会推动台版生成式AI,结合产官学研开发“TAIDE”,耗时4个月推出初阶成果,投入
70亿个参数量,帮AI上繁体中文课,前在自动摘要、翻译文本、写信、写文章等都有不错
表现。(资料照,记者吴柏轩摄)
国科会发展台版可信任AI对话引擎TAIDE 防堵中国偏见论述
https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
国科会今年6月发表“可信任人工智能对话引擎”(TAIDE)7B模型。国科会主委吴政忠(
左)表示,TAIDE是“打地基”,未来将提供公私部门加值应用,并守住台湾拥有的珍贵
繁体中文语料。(中央社资料照)
〔记者欧宇祥/台北报导〕近年中国影视创作、短影音平台大举跨境渗透台湾,时而引发
对台认知作战的疑虑,且台湾发展生成式AI(人工智能)等技术也须留意资料准确性、以
免生出不当答案。AI领域专家坦言,目前繁体中文资料量远少于简体中文,加上台湾网络
社群的知识性分享风气相对不盛,对我国开发AI大型语言模型相当不利。
台算力、资料资源相对有限
ChatGPT带动AI军备竞赛,我国政府是由国科会发展“可信任人工智能对话引擎”(TAIDE
)计画,产官学各自前进;不过发展AI烧钱,台湾算力、资料等资源都相对有限,研究单
位资金更紧缺,日前研究经费仅约三十万的中研院AI语言模型,因出现中国观点的回应,
引起轩然大波。
中研院资通安全专题中心执行长李育杰指出,生成式AI需要大量文本资料用做训练、再运
用机器运算进行“接龙”、产出内容,受资料集影响大;而中研院争议是源自于使用的
Llama 2模型,因含有中国资料集、易产生相应观点答案,加上中企、研究单位大力投入
AI研发,都凸显台湾需要自己的大型语言模型。
台湾人工智能协会理事黄逸华分析,目前开发AI模型可将简中资料转换成繁中,或将简中
资料剃除,但繁中资料量相对较少,可能使AI模型较容易出现幻觉(Hallucinations;即
无法作答的空白,可能以虚构来填补答案),或功能会较为侷限,且此问题是十数年积累
、短期难解,若使用PTT等平台资料,处理成本又高。
李育杰也认为,PTT、Dcard等台湾本土社群的用语生命周期短,加上资料杂乱可能蕴含谩
骂、火星文,品质不一定好,若要用在AI大型语言模型训练需再经处理;即使都以繁中资
料训练,AI仍可能生成不如预期的答案,以现行技术无法一○○%掌控规则与结果,只能
尽量隔绝不希望AI学习的资料与内容。

Links booklink

Contact Us: admin [ a t ] ucptt.com