※ 引述《gaymay5566 (feeling很重要)》之铭言:
: 中央研究院词库小组(CKIP)
: 中研院资讯所、语言所于民国75年合作成立
: 前天释出可以商用的繁中大型语言模型(LLM)
: CKIP-Llama-2-7b
: 以商用开源模型 Llama-2-7b 以及 Atom-7b 为基础
: 再补强繁体中文的处理能力
: 参数量达70亿
: 模型可应用于各种领域
: 包括文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等
: 但实际测试后
: https://i.imgur.com/phwhfcl.png
: https://i.imgur.com/O1P6HpS.png
: https://i.imgur.com/cMnCbI8.png
: 测试网页:https://reurl.cc/q0rbqn
: 拿这种东西出来交作业 太扯了吧
: 根本就是简体直接转繁体而已!
: 中研院资讯所耶 拿这种软件来骗
: 更新:被发现后 悄悄地撤下来了
: https://i.imgur.com/sy7rLgt.png
小弟待的公司,非学术单位,
可能是台湾硬件计算资源稍微丰富的公司。
公司投入在买GPU 应该近亿了。
自己也研究了几个月 fine-tune 方法。
不过,还是没足够能力与资源训练正常的LLM。
主要卡在三方面:
1.资料面,会卡什么?:
并不是像版友们说的:繁体中文语料过少,
这根本不是一开始会遇到的问题。
光是 Common Crawl 真的有人去看繁体中文的量有多大吗? 有人愿意像Meta一样去处理清洗资料后再去训练吗?
光是处理资料,所需的硬件采购,
大概要到一亿新台币来建置机房。
这还是稍微能用而已。
繁体中文资料难蒐集根本是假议题。
你的公司,没钱买设备,没资源
不愿意让你投几亿成本处理清洗资料才是事实。
我只看过中研院与联发科之前的Bloom-zh-3B论文。光是他们这点就卡住了。
资料只能用玩具级的做法来做。
到处砍,到处删CC的资料。
而且该论文也说了,自己只是 fine-tune别人的Bloomz 模型,不是从新训练。
嗯,光是模型大小,1B1或3B的,联发科语中研院就"没有能力"重新训练了好吗。
看了 只fine-tune LLaMA-2-7B这种等级的模型。
大概也很容易说明了,硬件经费根本不足。
这种经费会卡到的不是繁体语料不足,
而是根本没机器或资源给你清洗处理资料。
2. 训练模型会先卡什么?
目前,台湾任何一个单位,根本没能力研发LLM模型架构。台智云,中研院,或其他任何单位。
都是基于LLaMA2上去 fine-tune的。
所以模型都是 7B 13B 70B大小。
而是大概都是用QLORA或相关技术去 fine-tune的。这些都是open source直接去套而已,
完全没有任何技术门槛。
(只有谁愿意采购几千万硬件的门槛而已)
所有不拿大量通用资料,只 fine-tune少量资料
都有一个问题:
你可以over-fitting去嵌入所有你想要的模型输出文字,但灾难性遗忘所有通用知识。
同样的,你可以控制模型永远只输出英文与繁体,只输出台湾知识。但模型的通用性,绝对是差到不能用的。
所以台智云,或中科院这种等级训练出来的模型,通用型有待商确,可能问一些很基本的常识就挂了。
这不会先卡到中研院CKIP技术太差,
(我是非常敬佩CKIP这几年的努力的)
会先卡到的是:
是否愿意投个几十亿建立基础训练平台而已。
如果没看到一个像样的训练平台,千张 A100这种等级的。
短视到只愿意fine-tune
输出少数大家想看的输出,
当然永远灾难性遗忘通用能力。
永远没有一个可商用,可通用的机会。
当然也可以用云计算租GPU,但是费用也不便宜,没丢个几亿都是不够的。
国家要给中研院几个亿去玩LLM,
会先被舆论干翻吧。
3.人才面
台湾并没有很多人在真正训练/微调LLM。
你去看各种AI研讨会,或所谓都LLM专家,几乎都是在吹自己的prompt如何试错。
在吹自己怎么用OpenAI的API。
其实人才的建立,最先卡的也不是没钱。
中国人,一堆只有几万元台币的消费级显卡的人,都在fine-tune LLM了,其实买个6万台币的电竞笔电也能做很多事情了。但台湾就是没这种风气。
在台湾各种专业研讨会,做prompt trick的人,比傻傻的在处理资料,training/fine-tune模型的人,红很多。人才与风气走偏了。
能用 prompt 就能获得大量经费,成为专家,谁愿意研发training/fine-tune技术。
结论:
小弟是很看好中研院的能力,可惜整个台湾AI风气,与商业玩法,技术再强的人,大概都难以发挥。