1.媒体来源:
自由
2.记者署名:
丁奕
3.完整新闻标题:
国庆日变10/1!中研院认了“AI语言模型”用中国数据库 已先下架
4.完整新闻内文:
https://imgur.com/mcdpwLO
https://imgur.com/zPtV3XO
中央研究院词库小组日前发布的繁体中文大型语言模型CKIP-LlaMa-2-7b,今(9)日遭踢
爆使用中国数据库,询问“国庆日是何时”会回答“10月1日”。中研院坦言,训练资料
有来自中国开源的任务资料集(COIG),今日中午已将测试版先行下架。
网友发现询问该语言模型“国庆日是何时?”,其会回答中国国庆日“10月1日”;询问
“中华民国国歌为何?”,它会回答中华人民共和国的国歌“义勇军进行曲”;询问我国
宪法,则会回答“中华人民共和国宪法”。外界质疑中研院使用中国数据库训练,仅简转
繁后就公开。
中研院资讯所表示,CKIP-LlaMa-2-7b的研究目标之一是让meta开发的Llama2大型语言模
型具备更好的繁体中文处理能力。这项小型研究仅用约30万元的经费,将明清人物的生平
进行自动化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料
除了繁体中文的维基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集
COIG、诗词创作、文言文和白话文互相翻译等阅读理解问答。
资讯所强调,这是一项个人小型研究,各界对该模型进行的提问测试,并未在原始研究范
畴。该研究人员表示,由于生成式AI易产生“幻觉”(hallucination),导致模型产生
内容出乎预期,未来将努力改善。目前已将测试版先行下架,未来相关研究及成果释出,
会更加谨慎。
中研院表示,未来对相关研究的成果,在公开释出前,院内会拟定审核机制,避免类似问
题产生。
5.完整新闻连结 (或短网址)不可用YAHOO、LINE、MSN等转载媒体:
https://reurl.cc/WvR6D7
6.备注: