Re: [问卦] 中研院自己做的大型语言模型怎么了?

楼主: sxy67230 (charlesgg)   2023-10-09 14:34:24
※ 引述《messi5566 (虹粉)》之铭言:
: 中研院最近发布了他们自己开发的LLM
: 说是在处理繁体中文的任务上表现优异
: 可是小妹看了一下跑出来的成果
: https://i.imgur.com/I1zNnIa.png
: https://i.imgur.com/BJIxJY6.png
: 请问繁体中文的任务内容是把简体翻译过来吗
: 详细资料在这里
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
阿肥外商码农阿肥啦!
昨天晚上都在跟猎人直播来不及赶上大型翻车现场,这边中午看hugging face hub还
可以进去,但现在已经进不去了。
这边阿肥就直接说,基本上现在所有中文开源语言模型除了少数像chatGLM这种中国比较
早期做的自己完全从零训练的语言模型外,大家都是从meta 的llama魔改的,差别在于预
训练或微调的数据源跟一些微调小细节而已。
然后大家想知道这个模型是不是本土完全从零开始可以从hugging face上的模型config跟
作者说的训练数据源来看细节藏在魔鬼里。
首先,依据新闻阿肥看了一下数据是用dolly-15k跟COIG-PC然后用opencc 转繁体训练,
理论上原生的meta llama 2的vocabulary size是32000,然后当前对岸开源的简中llama
2 vocabulary size 是 55296,CKIP开源的那个看起来是65000。
理论上如果是完全从英文的llama 2 预训练依照这两个数据集词汇词典大小不会那么大的
,所以这边推测有可能这个模型原始就不是从原生llama 2开始的。
此外,这两个数据集都是简中数据集,中研院不知道哪个阿天以为只要opencc 简转繁就
可以训练,完全无视繁中的用词跟简中用词的差异。更天的是拿C-Eval这个简中评测集做
评测,根本是拿明朝的剑斩清朝的官。
当前政府一堆研究单位早就落后中国不止一轮了,人家中国四五年前就砸哈工大几亿人民
币再做简中数据集了。
那个时候阿肥就一直再说台湾想做自己的AI一定要先从数据中心、数据工程开始,建立属
于台湾自己的数据集,结果过了几年中研院依然是画大饼的单位,年初阿肥参加过几个会
议听到中研院再那边高喊要要做自己的LLM,阿肥还以为中研院自己秘密建立了一套数据
中心,想必一定砸大钱,结果竟然是拿对岸的数据训练,也不知道哪个天才研究员觉得只
要简转繁AI就会自己讲台湾用语。
唉~
这边注一下:
Vocabulary size是指当前LLM再预训练会先把文字依据数据集切分成对应大小AI自己学会
的Token,词会储存起来对应成ID,AI模型其实真正预测的是这个词表的ID最后再转换回
人类有办法阅读的中文或英文字。
C-Eval是中国清华北大释出来的评测集,简单理解就是AI输出的文字跟人类的回答有多接
近,他会做一些规范划分成20-30个领域看看AI究竟有没有学会到文字里面的文化或是专
业领域知识。
以上
阿肥自己目前也在帮公司做繁中的语言模型,目前阿肥因为繁中数据有限所以
阿肥都是尽可能把模型缩限在小范围超过分布就拒绝回答,敢这样做到那么通用还不是拿
自己的
大量数据集来训练,我感觉CKIP可能要有大地震了。
呵呵….

Links booklink

Contact Us: admin [ a t ] ucptt.com