[新闻] 中研院 AI 大翻车！繁中大型语言模型 CKI monnom PTT批踢踢实业坊

[新闻] 中研院 AI 大翻车！繁中大型语言模型 CKI

楼主: monnom (桂) 2023-10-09 19:04:41

1.媒体来源:
科技新报
2.记者署名:
林妤柔
3.完整新闻标题:
中研院 AI 大翻车！繁中大型语言模型 CKIP-Llama-2-7b 目前已下架
4.完整新闻内文:
中央研究院词库小组（CKIP）最新释出可以商用的繁中大型语言模型（large language
model）CKIP-Llama-2-7b，“孵．大学”校长谢昆霖直言“中研院 AI 大翻车！”，在仔
细端详内容后他立刻跟伙伴说“一定会出问题”，目前这款模型已于今（9 日）中午下架
。
谢昆霖解释，这款语言模型的多任务微调训练，是使用“COIG-PC 资料集”和“
dolly-15k 资料集”这两款简转繁资料集。前者是北京星尘数据 stardust.ai 提供网络
资料集，以中国 AI 相关研究单位为首，超过二十所全球知名大学和机构共同编制。
根据 COIG-PC 资料集网站，重点机构包括北京人工智能学院、北京大学、香港科技大学
、北京邮电大学、中国LinkSoul.AI、中国 LinkSoul.AI、加拿大滑铁卢大学和英国谢菲
尔德大学；至于 dolly-15k 资料集是一个以简体中文为主的一般性知识问答对话资料集
。
谢昆霖认为，用简体中文的资料，再透过 OpenCC 翻译成繁体中文，就能训练出台湾可用
的训练资集吗？答案绝对是否定的。除了用字遣词的差异，还包含很多的民生知识、文化
知识，用北京研究机构校正是“适用于中国的民生、文化知识”，再修剪成“台湾版”，
再监督与修正的总体成本会高于“认份做台湾的资料集”。
此外，评鉴也是个大问题。谢昆霖称，中央研究院词库小组说这款 LLM 经过C-Eval中文
模型评测，但这是“中国清大”、“中国交大”开发的中文基础模型评量系统。简单来说
，中研院用简转繁的资料集训练完他们认为适用台湾的基础模型，再派它考中国考试，计
算分数。
中研院说明这款语言模型可用于“学术、商业使用、文案生成、文学创作、问答系统、客
服系统、语言翻译、文字编修、华语教学等。”谢昆霖直言，一般商用的还好，但用于后
面几项“会出事的”。
谢昆霖表示，台湾的确严重缺乏在地语言资料集的困境，因为真的超级烧钱，是以亿为单
位计算的，要做好可能相当于好几个军购案做好多年，政府难编列预算、民意机关难说服
投资、民间企业不可能投资做语言数位化，但资料集是AI时代的基础建设。
对此，谢昆霖表示自己建立一个开放社群“中华民国台湾开源语言资料集_建立、收集、
标注、监督、评鉴”，在合法的范围内把建立台湾在地的训练资料集，用众人的力量做，
这样台湾的商用的AI才有在地的训练资料可以用。
他也认为，AI 时代的竞争，需强化台湾在地用词的资料收集、建立资料集，建立熟悉台
湾在地文化的 AI，视为国防/国安投资，有急迫性和必要性。
另有 PTT 网友做测试，发现问一些敏感问题，基本上回答都相当“出乎意料”，也不难
理解语言模型紧急下架的原因。
5.完整新闻连结 (或短网址)不可用YAHOO、LINE、MSN等转载媒体:
https://technews.tw/2023/10/09/ckip-llama-2-7b-2/
6.备注:

继续阅读

[新闻] 快讯／哈玛斯领导人惊传已死亡 asd63312337 [新闻] 快讯／诺贝尔经济学奖出炉美哈佛女学ianlin1216 [问卦] 哪款街机大台格斗游戏最好玩??assassinASHE Re: [新闻] 民众避打高端流感疫苗基层医忧排挤幼童接种astoor [问卦] 情侣一起在温泉饭店打卡是什么意思？blaga [问卦] 解放军什么时侯会侵台？basterds [爆卦] 韩柯合体kobe089 Re: [爆卦] 教育部FB道歉声明affluent Re: [新闻] 民众避打高端流感疫苗基层医忧排挤幼童接种jiern [新闻] 新竹2男口角互殴！他负气睡沙发…隔天开yukihira