Re: [问卦] 中研院自己做的大型语言模型怎么了？ sxy67230 PTT批踢踢实业坊

Re: [问卦] 中研院自己做的大型语言模型怎么了？

楼主: sxy67230 (charlesgg) 2023-10-09 14:34:24

※ 引述《messi5566 (虹粉)》之铭言：
: 中研院最近发布了他们自己开发的LLM
: 说是在处理繁体中文的任务上表现优异
: 可是小妹看了一下跑出来的成果
: https://i.imgur.com/I1zNnIa.png
: https://i.imgur.com/BJIxJY6.png
: 请问繁体中文的任务内容是把简体翻译过来吗
: 详细资料在这里
: https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
阿肥外商码农阿肥啦！
昨天晚上都在跟猎人直播来不及赶上大型翻车现场，这边中午看hugging face hub还
可以进去，但现在已经进不去了。
这边阿肥就直接说，基本上现在所有中文开源语言模型除了少数像chatGLM这种中国比较
早期做的自己完全从零训练的语言模型外，大家都是从meta 的llama魔改的，差别在于预
训练或微调的数据源跟一些微调小细节而已。
然后大家想知道这个模型是不是本土完全从零开始可以从hugging face上的模型config跟
作者说的训练数据源来看细节藏在魔鬼里。
首先，依据新闻阿肥看了一下数据是用dolly-15k跟COIG-PC然后用opencc 转繁体训练，
理论上原生的meta llama 2的vocabulary size是32000，然后当前对岸开源的简中llama
2 vocabulary size 是 55296，CKIP开源的那个看起来是65000。
理论上如果是完全从英文的llama 2 预训练依照这两个数据集词汇词典大小不会那么大的
，所以这边推测有可能这个模型原始就不是从原生llama 2开始的。
此外，这两个数据集都是简中数据集，中研院不知道哪个阿天以为只要opencc 简转繁就
可以训练，完全无视繁中的用词跟简中用词的差异。更天的是拿C-Eval这个简中评测集做
评测，根本是拿明朝的剑斩清朝的官。
当前政府一堆研究单位早就落后中国不止一轮了，人家中国四五年前就砸哈工大几亿人民
币再做简中数据集了。
那个时候阿肥就一直再说台湾想做自己的AI一定要先从数据中心、数据工程开始，建立属
于台湾自己的数据集，结果过了几年中研院依然是画大饼的单位，年初阿肥参加过几个会
议听到中研院再那边高喊要要做自己的LLM，阿肥还以为中研院自己秘密建立了一套数据
中心，想必一定砸大钱，结果竟然是拿对岸的数据训练，也不知道哪个天才研究员觉得只
要简转繁AI就会自己讲台湾用语。
唉～
这边注一下：
Vocabulary size是指当前LLM再预训练会先把文字依据数据集切分成对应大小AI自己学会
的Token，词会储存起来对应成ID，AI模型其实真正预测的是这个词表的ID最后再转换回
人类有办法阅读的中文或英文字。
C-Eval是中国清华北大释出来的评测集，简单理解就是AI输出的文字跟人类的回答有多接
近，他会做一些规范划分成20-30个领域看看AI究竟有没有学会到文字里面的文化或是专
业领域知识。
以上
阿肥自己目前也在帮公司做繁中的语言模型，目前阿肥因为繁中数据有限所以
阿肥都是尽可能把模型缩限在小范围超过分布就拒绝回答，敢这样做到那么通用还不是拿
自己的
大量数据集来训练，我感觉CKIP可能要有大地震了。
呵呵….

继续阅读

[问卦] 年轻人是不是真的很可悲yuan55226 Re: [问卦] 有没有香港的汉堡比较好吃的八卦yokann Re: [新闻] 自曝多次致电柯文哲　侯友宜：可惜拨通flybow Re: [新闻] 愤怒！哈玛斯武装份子掳走多名以色列幼tosay [新闻] 港湖蓝大于绿、靠少部分绿选不上？吴欣岱tiger911 [问卦] 为什么女生动不动翻白眼fatslave [问卦] 教育部影片事件叫社群编辑雅婷道歉负责giorno78 [问卦] 干爱当台女舔狗的统统给我进来sulanpa [问卦] 去百货一直被偷看pttbeigowow [问卦] “反正我很闲”会怎么拍0-6岁国家养？WeGoStyle