Re: [爆卦] 中央研究院词库小组大型语言模型

楼主: derekhsu (華麗的天下無雙)   2023-10-09 12:40:01
※ 引述《dean1990 (狄恩院长)》之铭言:
: 本鲁也很好奇问了一些问题,
: 首先是比较基础的:
: https://i.imgur.com/zKhx1A2.jpg
: 接着是大家都知道的:
: https://i.imgur.com/Tl8GRO3.jpg
: 再来是比较敏感一点的:
: https://i.imgur.com/Xm7bZC3.jpg
: 最后倒是令本鲁比较意外:
: https://i.imgur.com/d43AJ24.jpg
: 中研院作为我国最高研究机构,
: 研究结论应该还算有公信力吧。
: ※ 引述《PekoraSakura (PekoMiko)》之铭言:
: : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
: : 不知道这研究案领多少钱?
: : http://i.imgur.com/tt7aKBR.jpg
: : http://i.imgur.com/SpiGuTr.jpg
: : http://i.imgur.com/kXrHsS1.jpg
: : 拿别人的成功来tune一下就可以挂名中研院......
: : 有没有挂?
对于LLM只有这一点认知程度的话,最好不要就这样出来带风向会比较好,不然先去
跟阳明交大校长先去旁边先学习一下什么叫做LLM,不同LLM之间又有什么差异。
第一个错误的认知是认为LLM就应该要提供正确的答案,事实上LLM是一个机率模型,
它所做的事情是基于模型的权重预测下一个token(词块)最高的机率是那个,它不是资
料库,所以你不能因为它答的一个答案不是你所想的就是说这个模型如何如何。
第二个错误的认知是把所有的LLM都当成是同一个等级,好像只要A不如B那A就不行,是
垃圾。以这个案例来说,它是Llama-2-7b跟Atom-7b模型,前面的Llama-2模型是代表它
是META出的Llama模型第二代(可商用),而7b则是说它的参数是70亿个,不要以为70亿
个参数很多,70亿参数以LLM来说只能说是非常小的,所以答出一切乱七八糟的答案非
常正常,在7b之上,还有13b跟70b的模型参数量。
7b的模型实务上如果没有经过finetune然后针对小范围的特定任务,基本上就是玩具而
已。
第三,就是对于台湾的能力有误会,做AI大概分为三个要素,模型/资料/算力。在大语言
模型方面,台湾三个都弱,模型用开源的即便是台智云,也是用开源模型。资料方面,
繁体中文本来就在中文领域本来就是弱项(中文已经很弱了,繁体中文更弱),算力方面,
台湾有算力从头到尾训练LLM的不是说没有,但跟OpenAI, META都还是非常非常遥远的距离
,所以能做作finetune就不错了。
这是原生llama-2的试玩网址(记得把模型调到7b来比较)
https://www.llama2.ai/
好,回归重点,中研院在网站上就已经说过了
####
以商用开源模型Llama-2-7b以及Atom-7b为基础,再补强繁体中文的处理能力
####
好,刚刚我说了Llam2-2-7b,那Atom-7b我刚刚没有提到,这是什么东西?
Atom-7b就是https://github.com/FlagAlpha/Llama2-Chinese
这个就是中国训练出来的大语言模型,Atom-7b
中研院从头到尾都没有隐藏这件事,它就是基于中国训练的Atom-7b然后再用繁体中文去
finetune出来的模型啊。
从头到尾中研院就没有隐藏这件事,完全不知道前面好像发现什么新大陆一样。

Links booklink

Contact Us: admin [ a t ] ucptt.com