[新闻] 中研院 AI 大翻车!繁中大型语言模型 CKI

楼主: monnom (桂)   2023-10-09 19:04:41
1.媒体来源:
科技新报
2.记者署名:
林妤柔
3.完整新闻标题:
中研院 AI 大翻车!繁中大型语言模型 CKIP-Llama-2-7b 目前已下架
4.完整新闻内文:
中央研究院词库小组(CKIP)最新释出可以商用的繁中大型语言模型(large language
model)CKIP-Llama-2-7b,“孵.大学”校长谢昆霖直言“中研院 AI 大翻车!”,在仔
细端详内容后他立刻跟伙伴说“一定会出问题”,目前这款模型已于今(9 日)中午下架

谢昆霖解释,这款语言模型的多任务微调训练,是使用“COIG-PC 资料集”和“
dolly-15k 资料集”这两款简转繁资料集。前者是北京星尘数据 stardust.ai 提供网络
资料集,以中国 AI 相关研究单位为首,超过二十所全球知名大学和机构共同编制。
根据 COIG-PC 资料集网站,重点机构包括北京人工智能学院、北京大学、香港科技大学
、北京邮电大学、中国LinkSoul.AI、中国 LinkSoul.AI、加拿大滑铁卢大学和英国谢菲
尔德大学;至于 dolly-15k 资料集是一个以简体中文为主的一般性知识问答对话资料集

谢昆霖认为,用简体中文的资料,再透过 OpenCC 翻译成繁体中文,就能训练出台湾可用
的训练资集吗?答案绝对是否定的。除了用字遣词的差异,还包含很多的民生知识、文化
知识,用北京研究机构校正是“适用于中国的民生、文化知识”,再修剪成“台湾版”,
再监督与修正的总体成本会高于“认份做台湾的资料集”。
此外,评鉴也是个大问题。谢昆霖称,中央研究院词库小组说这款 LLM 经过C-Eval中文
模型评测,但这是“中国清大”、“中国交大”开发的中文基础模型评量系统。简单来说
,中研院用简转繁的资料集训练完他们认为适用台湾的基础模型,再派它考中国考试,计
算分数。
中研院说明这款语言模型可用于“学术、商业使用、文案生成、文学创作、问答系统、客
服系统、语言翻译、文字编修、华语教学等。”谢昆霖直言,一般商用的还好,但用于后
面几项“会出事的”。
谢昆霖表示,台湾的确严重缺乏在地语言资料集的困境,因为真的超级烧钱,是以亿为单
位计算的,要做好可能相当于好几个军购案做好多年,政府难编列预算、民意机关难说服
投资、民间企业不可能投资做语言数位化,但资料集是AI时代的基础建设。
对此,谢昆霖表示自己建立一个开放社群“中华民国台湾开源语言资料集_建立、收集、
标注、监督、评鉴”,在合法的范围内把建立台湾在地的训练资料集,用众人的力量做,
这样台湾的商用的AI才有在地的训练资料可以用。
他也认为,AI 时代的竞争,需强化台湾在地用词的资料收集、建立资料集,建立熟悉台
湾在地文化的 AI,视为国防/国安投资,有急迫性和必要性。
另有 PTT 网友做测试,发现问一些敏感问题,基本上回答都相当“出乎意料”,也不难
理解语言模型紧急下架的原因。
5.完整新闻连结 (或短网址)不可用YAHOO、LINE、MSN等转载媒体:
https://technews.tw/2023/10/09/ckip-llama-2-7b-2/
6.备注:

Links booklink

Contact Us: admin [ a t ] ucptt.com