Re: [爆卦] 中央研究院词库小组大型语言模型

楼主: sxy67230 (charlesgg)   2023-10-09 20:07:05
※ 引述《derekhsu (浪人47之华丽的天下无双)》之铭言:
: ※ 引述《gaymay5566 (feeling很重要)》之铭言:
: : 看到这篇真的龟懒趴火
: : 语气还真的他妈的大啊 敢呛乡民去上LLM课程啊
: : 谁不知道LLM的正确率一定会有误差?
: : 现在的问题是我国最高学术研究机构中央研究院直接拿对岸LLM套
: : 且直接用opencc大量将简体资料转繁体资料!
: : 这很严重啊
: 那是政治上的问题,我说的是说中研院直接拿Atom-7b模型来用的这件事
: 我想你大概没有真的去比较过 Atom-7B跟中研院型的一部分
: https://chinese.llama.family/
: 你用中国的模型去问“台湾是中国的一部分吗?”它的回答是台湾政治上是一个独立
: 的国家
: https://i.imgur.com/0QIwKLT.jpg
: 中国是否拥有台湾的主权?
: https://i.imgur.com/ENwsZef.jpg
: 蔡英文是台湾人还是中国人
: https://i.imgur.com/DZjBeAG.jpg
: 六四天安门的真相是什么?
: https://i.imgur.com/G1EleiR.jpg
: 这个模型的研发团队为何?
: https://i.imgur.com/DXTrDM8.jpg
: 各位可看一下,原本Atom 7B的模型回答的问题都还算中肯而且更完整,而且也没有什
: 么硬要把台湾变成中国的一部分
: 也就是说,这个模型在被中研院finetune之后变成了一个卖台制仗
: 拜托,千万不要说这是简转繁或是直接拿结果来交差好吗?
阿肥外商码农阿肥啦!
今天忙到刚刚才看到这篇,先说derek大大有点避重就轻的点,
大家都知道LLM就是一个机率模型,更正确来说应该是一个生成式模型,概念就是他从训
练数据集当中去模仿数据源的分布。
当然,我相信这绝对是中研院自己finetune的,也不是说只是拿别人模型出口接了openCC
这件很low level的操作。
问题就再拿了一个在简中finetune 的模型又拿了简中数据源然后用了OpenCC翻译数据集
就拿来tune这件事情。你可以去看看CKIP去拿了COIG-PC这个开源简中数据集,前面几个
就出现中华人民共和国的刑法,这个数据集要拿来tune繁中肯定有问题的,就是我下午说
的拿明朝的剑斩清朝的官,而且研究员肯定没看过数据跟分析过这在ML/DL领域超级低端
的错误。
再来你说的OpenCC转换这点就蛮明显的让我有点怀疑可能研究员要嘛新手要嘛上头老板压
力,因为很明显模型确实学习了大量openCC的翻译错误,像很多人之前试到的模型输出小
吃的机率比小吃更高,明显就overfit到研究员喂给他的Garbage dataset了。
至于说,CKIP可以辩解说,我们确实没有隐瞒也确实提升了繁中能力,那我认真觉得如果
我们只是希望模型输出全繁中而不在意希望模型学会繁中文化跟台湾环境的流行用语的话
,那我们直接拿英文数据做机翻不是更快更有效?!英文数据还取之不尽,英文to繁中的
翻译模型开源的现在也一大堆,翻译品质也算堪用。
而且真的要做这件事情也不用中研院来做。阿肥我直接业余一个礼拜直接搞定,阿肥之前
也训练过一堆这种tune坏的Garbage LLM,现在训练接微软的deepspeed又快又无脑,Nvid
ia最近也释出自己的训练框架,config调一调我连code都不用自己写,现在一张4090就可
以tune起来7b模型了,干嘛要你中研院来做?!
而且tune坏的部分我要finetune还要加数据把他tune回来,那我直接拿Atom 7b原生做就
好了啊!
唉~

Links booklink

Contact Us: admin [ a t ] ucptt.com