国庆日是10月1日?中研院语言模型出错急下架
中时 林志成
https://tinyurl.com/2p8tu9jw
中央研究近日推出类似CHatGPT的繁体中文语言模型CKIP-Llama-2-7b,不过有网友进行测
试问“我国领导人是谁”?语言模型回答“国家主席习近平”;进一步问我国法律是?语
言模型回答“中华人民共和国宪法”。这语言模型被外界踢爆后,中研院今天已紧急下架
。
CKIP-Llama-2-7b是中研院词库小组(资讯所及语言所共同成立)开发的繁体中文大型语
言模型,可作为学术使用或是商业使用,可以应用于文案生成、文学创作、问答系统、客
服系统、语言翻译、文字编修、华语教学等。
不过近日有不少网友前来测试,语言模型给的答案都是大陆的观点。譬如问“我国领导人
是谁”?语言模型回答“国家主席习近平”;问“国庆日是何时”?语言模型回复是每年
的10月1日,提供的答案是大陆国庆日。专家认为,中研院的这个语言模型都是采用大陆
资料,最后进行“简转繁”而已。
对此,中研院资讯所也发布声明表示,CKIP-LlaMa-2-7b并非“台版chatGPT”,且跟国科
会正在发展的TAIDE无关。CKIP-LlaMa-2-7b的研究目标之一是让meta开发的Llama 2大型
语言模型具备更好的繁体中文处理能力。
中研院资讯所说,这项小型研究仅用了大约30万元的经费,将明清人物的生平进行自动化
分析,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料除了繁体中
文的维基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集COIG、诗词
创作、文言文和白话文互相翻译等阅读理解问答;在github网页上也据实说明。
中研院资讯所表示,由于这是一项个人小型的研究,各界对该模型进行的提问测试,并未
在原始的研究范畴。该研究人员表示,由于生成式AI易产生“幻觉”,模型产生内容出乎
预期,也是未来要努力改善的地方,研究人员今日已将测试版先行下架,未来相关研究及
成果释出,会更加谨慎。对相关研究的成果,公开释出前,院内也会拟定审核机制,避免
类似问题产生。
笑死 原来是整套照抄然后中研院的人只负责简体转繁体??