Re: [讨论] 中研院繁中LLM被爆直接拿对岸的来套

楼主: DrTech (竹科管理处网军研发人员)   2023-10-09 14:53:30
※ 引述《gaymay5566 (feeling很重要)》之铭言:
: 中央研究院词库小组(CKIP)
: 中研院资讯所、语言所于民国75年合作成立
: 前天释出可以商用的繁中大型语言模型(LLM)
: CKIP-Llama-2-7b
: 以商用开源模型 Llama-2-7b 以及 Atom-7b 为基础
: 再补强繁体中文的处理能力
: 参数量达70亿
: 模型可应用于各种领域
: 包括文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等
: 但实际测试后
: https://i.imgur.com/phwhfcl.png
: https://i.imgur.com/O1P6HpS.png
: https://i.imgur.com/cMnCbI8.png
: 测试网页:https://reurl.cc/q0rbqn
: 拿这种东西出来交作业 太扯了吧
: 根本就是简体直接转繁体而已!
: 中研院资讯所耶 拿这种软件来骗
: 更新:被发现后 悄悄地撤下来了
: https://i.imgur.com/sy7rLgt.png
小弟待的公司,非学术单位,
可能是台湾硬件计算资源稍微丰富的公司。
公司投入在买GPU 应该近亿了。
自己也研究了几个月 fine-tune 方法。
不过,还是没足够能力与资源训练正常的LLM。
主要卡在三方面:
1.资料面,会卡什么?:
并不是像版友们说的:繁体中文语料过少,
这根本不是一开始会遇到的问题。
光是 Common Crawl 真的有人去看繁体中文的量有多大吗? 有人愿意像Meta一样去处理清洗资料后再去训练吗?
光是处理资料,所需的硬件采购,
大概要到一亿新台币来建置机房。
这还是稍微能用而已。
繁体中文资料难蒐集根本是假议题。
你的公司,没钱买设备,没资源
不愿意让你投几亿成本处理清洗资料才是事实。
我只看过中研院与联发科之前的Bloom-zh-3B论文。光是他们这点就卡住了。
资料只能用玩具级的做法来做。
到处砍,到处删CC的资料。
而且该论文也说了,自己只是 fine-tune别人的Bloomz 模型,不是从新训练。
嗯,光是模型大小,1B1或3B的,联发科语中研院就"没有能力"重新训练了好吗。
看了 只fine-tune LLaMA-2-7B这种等级的模型。
大概也很容易说明了,硬件经费根本不足。
这种经费会卡到的不是繁体语料不足,
而是根本没机器或资源给你清洗处理资料。
2. 训练模型会先卡什么?
目前,台湾任何一个单位,根本没能力研发LLM模型架构。台智云,中研院,或其他任何单位。
都是基于LLaMA2上去 fine-tune的。
所以模型都是 7B 13B 70B大小。
而是大概都是用QLORA或相关技术去 fine-tune的。这些都是open source直接去套而已,
完全没有任何技术门槛。
(只有谁愿意采购几千万硬件的门槛而已)
所有不拿大量通用资料,只 fine-tune少量资料
都有一个问题:
你可以over-fitting去嵌入所有你想要的模型输出文字,但灾难性遗忘所有通用知识。
同样的,你可以控制模型永远只输出英文与繁体,只输出台湾知识。但模型的通用性,绝对是差到不能用的。
所以台智云,或中科院这种等级训练出来的模型,通用型有待商确,可能问一些很基本的常识就挂了。
这不会先卡到中研院CKIP技术太差,
(我是非常敬佩CKIP这几年的努力的)
会先卡到的是:
是否愿意投个几十亿建立基础训练平台而已。
如果没看到一个像样的训练平台,千张 A100这种等级的。
短视到只愿意fine-tune
输出少数大家想看的输出,
当然永远灾难性遗忘通用能力。
永远没有一个可商用,可通用的机会。
当然也可以用云计算租GPU,但是费用也不便宜,没丢个几亿都是不够的。
国家要给中研院几个亿去玩LLM,
会先被舆论干翻吧。
3.人才面
台湾并没有很多人在真正训练/微调LLM。
你去看各种AI研讨会,或所谓都LLM专家,几乎都是在吹自己的prompt如何试错。
在吹自己怎么用OpenAI的API。
其实人才的建立,最先卡的也不是没钱。
中国人,一堆只有几万元台币的消费级显卡的人,都在fine-tune LLM了,其实买个6万台币的电竞笔电也能做很多事情了。但台湾就是没这种风气。
在台湾各种专业研讨会,做prompt trick的人,比傻傻的在处理资料,training/fine-tune模型的人,红很多。人才与风气走偏了。
能用 prompt 就能获得大量经费,成为专家,谁愿意研发training/fine-tune技术。
结论:
小弟是很看好中研院的能力,可惜整个台湾AI风气,与商业玩法,技术再强的人,大概都难以发挥。
作者: luckyalbert (幸运知音)   2023-10-09 14:59:00
数发部那两百多亿真的不知道在冲三小用的
作者: rabbitu04 (心日兔)   2023-10-09 15:01:00
都可以花十几亿弄个不能用的球场了 我们国家很有钱的党要不要而已
作者: NDark (溺于黑暗)   2023-10-09 15:11:00
作者: qwas65166516 (TO BELIEVE)   2023-10-09 15:14:00
不同预算直接比跟算营养午餐那套有啥差别,问题在好多公司上层都在吹自家有微调大模型的能力,结果给的机器少得可怜,再怎么厉害的人也无能为力如果能理解"给多少资源做出来就是多少能力"还好,怕的是你做出来老板叫你跟OpenAI的大模型比
作者: drysor   2023-10-09 15:36:00
推~
作者: luckyalbert (幸运知音)   2023-10-09 15:40:00
很多公司房营收获利来源就跟鬼岛政府一样短视近利,仅靠拥护某些人的利益却想借由抢/死他人来获益,对这类人而言能做的仅次于一样的无能及可悲。这年头各种事情及冲突其实已经跟所有人告诫,从各面向观之,只想赚自己的那些终究会葬送在自己的手里,并且把整体环境弄成一摊死水出张嘴短视近利靠混及骗来的不代表你多厉害,反而还会有更多产业内外的人们,因你(这类人)在位而被害@抱歉SE键盘太小打错字是 公司方*那还不如不要无脑就跟着做下去更好
作者: Csongs (西歌)   2023-10-09 16:00:00
台湾公司一堆称有ai单位,也没做出什么东西吗
作者: luckyalbert (幸运知音)   2023-10-09 16:02:00
我原医药产业各式台外商政商及其各式职司就更不用提,那种情况比科技业能有准则判定立马有成效数据孰优孰劣更明显,而且动辄国际及国家资源独寡占上兆耗费而言资源偷拐抢骗比科技业跟软工还夸张的可怕,目前我原产业得志又得利的小人们占多数,拿他们没办法而且他们各式所为还不会被评判攻击的这么明显,反过来其他人还会被这些人评判,错误方变成对的那一方,对的变成错误方还要被要求检讨自己来证明这些人没问题,更莫名奇妙,中研院现在那个生医园区及我原产业那些人们,以后挖台湾的钱更是会用比这还夸张的莫名奇妙手腕,这模型看起来跟我原产业的人们相比真的小太多
作者: ttss4092 (玉雨霰)   2023-10-09 16:06:00
台湾永远只有第一波玩的到,后面要玩资本的永远跟不上
作者: luckyalbert (幸运知音)   2023-10-09 16:20:00
资本跟国力蛮有关的,如果台湾自己又再内斗内耗,这块输别人(尤其是对比欧美而言,他们的国力本来就很够用)真的是正常
作者: drajan (EasoN)   2023-10-09 18:20:00
结论是人才很好 但没钱?你知道数位发展部的年度预算有多少吗?我国政府有的是钱 只是不是拿来投资用的而已LLM也算是数位发展部的范畴吧?
作者: yiche (你若安好,便是晴天)   2023-10-09 19:15:00
协寻数发部…
作者: cobrasgo (人鱼线变成鲔鱼线,超帅)   2023-10-09 20:33:00
只觉得很悲哀
作者: tomdavis (tomdavis)   2023-10-09 20:43:00
倒果为因了 就是卡住 所以只能往prompt发展
作者: ouryouth (ouryouth)   2023-10-09 20:44:00
作者: tomdavis (tomdavis)   2023-10-09 20:46:00
消费级显卡fine tune LLM? 你当LLM多小...
作者: prag222 (prag)   2023-10-09 21:02:00
现在平民老百姓要学的是如何应用AI..
作者: johnbill (cj钟钟)   2023-10-09 21:12:00
资料处理费时烧钱 老板不喜欢 嘻嘻
作者: milk830122 (SuperX)   2023-10-09 21:30:00
有数发部这种顶级单位干嘛搞研发
作者: htang17 (17)   2023-10-09 21:39:00
1080Ti就可以fine tune Bert啊,楼上在嘘啥CKIP真的值得敬佩希望那些酸言酸语不要影响到研发人员的心情
作者: NCUking (中大王)   2023-10-09 21:50:00
BERT 称不上是 LLM 吧消费级显卡可以搞 LoRA 啊
作者: fantasywater (prepare myself)   2023-10-09 21:56:00
趋势很明显,学怎么应用AI就好,以后AI底层架构会跟程式语言底层一样都是米国的知识产权。
作者: popeye0303 (BronIsKingOfWorld )   2023-10-09 22:49:00
抱歉 家里失业6年 自称理工医文法商的精障最近燥期到了https://bit.ly/3Q5LUxO
作者: k798976869 (kk)   2023-10-09 22:52:00
有200多亿可以租啊 不想而已
作者: dlshao (Mashiro)   2023-10-09 22:55:00
没人愿意清资料政府不愿意带头投资硬件 乖乖用对岸开源的的别幻想自建LLM了啦
作者: DaOppaiLoli (大欧派萝莉)   2023-10-09 22:58:00
台智云那段我想提醒一下,一开始他们是用 BLOOM 176B 下去训练,当时(推测是二月开始训练) QLoRA 即使还没出来。虽然 BLOOM 架构与 Llama 架构差满多的,但我想 AFS 训练千亿级参数量模型的能力应该还是有的。只是说台智云这个系列的模型是闭源的,所以也不会被大家拿来检视与挑战就是了。
作者: milk830122 (SuperX)   2023-10-09 23:04:00
不用跟某人吵吧没用 还有快去就医 他在ptt各板被桶光不知道现实会做出什么XD
楼主: DrTech (竹科管理处网军研发人员)   2023-10-09 23:44:00
台智云前阵子发新闻稿,最新模型是用LLaMA 2+Qlora训练的。另外,有人提到消费级显卡无法fine-tune LLM,可以说为什么吗?。实际上 4090,笔电16G,桌电24G,真的够fine-tune中研院这种等级(7B)的LLM 阿。消费级显卡,硬是要训练成大家期待的输出,或政府爱看的输出也没什么问题,只是通用性绝对不高而已。
作者: DaOppaiLoli (大欧派萝莉)   2023-10-10 00:01:00
那个应该是指说他们推出了 Llama2 繁中版,“另外”还提供了 PEFT 训练方法可供选择,但是并没有明确指出这些繁中版的模型是使用 LoRA 训练的。但我有朋友用过 AFS Demo,当时 FFM 176B 也是 Full Fine-tuning,感觉没什么道理参数量少了反而倒退噜。不过他们是主打算力平台,模型的提供并不是真正的重点,只是让客户有比较多选择而已。新闻稿参考https://tinyurl.com/2wzxxyx9
作者: sumsum (simon)   2023-10-10 00:06:00
天才IT大臣除了租办公室到底都做惹啥ㄚ
作者: alan5 (小安)   2023-10-10 00:19:00
房价那么贵公司是怎么买机房放机器
作者: luckyalbert (幸运知音)   2023-10-10 00:47:00
LoRA基本到连我这外行人都会xD我在各板遇到的各式ID中有几个神经病真的不知道谁家养著的长期发疯抹黑跟骚诽谤造谣贴标说谎人身攻击站方放任这些神经病在发疯,真不知道这些小人们到底都是谁家给钱养著的疯子有病的贴别人有病,没病的路人正常平台国家学术资源使用者你我被洗成有病,恶烂到炸
作者: ccas (昆蟲不一定會飛)   2023-10-10 05:24:00
其实在中研院说要自己弄的时候,大家就在说不可能了现在只是丑妇见家翁而已,没有多少人真的期待那一点预算就作出来一套跟别人百倍、千倍预算相比的吧?
作者: genic (路过的小细菌)   2023-10-10 08:43:00
天才IT 大臣加上几百亿的预算你跟我说没有钱没有人
作者: tommytyc (75303301)   2023-10-10 09:31:00
作者: yuinami (yuinami)   2023-10-10 09:39:00
作者: francej (~~~~)   2023-10-10 09:48:00
问题是真投了几百亿 几千亿 也赚不了钱台湾还是专心做GPU硬件生产就好与其把资源放在搞没钱途的AI 还不如把钱投注在硬件架构要说联发科哪天能分杯羹Nvidia的市场 还比较能想像
作者: Lhmstu (lhmstu)   2023-10-10 10:30:00
把数发的200亿移过来用不就好了?200亿应该够了吧
作者: DellSale999 (我好便宜)   2023-10-10 11:02:00
这才是台湾的价值
作者: GrayHS (炫砲烧仙草)   2023-10-10 11:05:00
党不喜欢有人说实话
作者: w28103566 (迷途的旅行者)   2023-10-10 11:08:00
先装潢再说
作者: WaterLengend (Leeeeeeeeooooooo)   2023-10-10 12:06:00
有钱但是不分你啊
作者: markbex (马克杯)   2023-10-10 12:11:00
推说明 AI基础建设就是砸钱 政府有没有决心去推很重要
作者: jack529 (Jack)   2023-10-10 12:32:00
现在的政府不用想了吧,国家从上到下都在短视近利
作者: k798976869 (kk)   2023-10-10 16:24:00
不用幻想文组法律系当头的政府有啥捞快钱之外的目标惹啦 经济部还想补助中小ic设计商先进制成总经费8亿 是要笑死人 老人只能玩盖蚊子馆捞钱啦
作者: Belieeve (芥末拿铁)   2023-10-10 16:48:00
推分析,另真的不管钱投在哪里就是会有帐号冒出来骂翻,看推文就知道
作者: markbex (马克杯)   2023-10-10 19:03:00
每次提到“政府”就有人来乱酸...好好讨论不行吗
作者: milk830122 (SuperX)   2023-10-10 19:20:00
好好面对现实不行吗 为什么会有人讲政府又不是无中生有
作者: fallcolor (秋天走了)   2023-10-10 21:12:00
clean data需要亿级硬件设备可以分享一下原因吗是后处理的资料存储问题吗
作者: alex780312 (Alex)   2023-10-10 22:13:00
在公司内很难说服主管像中国那样做资料集和开源模型,然后别人一推出新模型就开始瞎紧张,完全没有长期规划的能力
作者: opencat (opencat)   2023-10-10 23:27:00
对岸有国产搜寻引擎或问答平台 比较容易累积资料台湾的玩法应该是不会重头弄 只能外包请人做资料审查
作者: cancelpc (阿吉)   2023-10-11 06:26:00
蛋塔一样,外面红啥,政府就跟着喊,然后补助一堆学院,大量产出纸上作业的人
作者: greenx   2023-10-11 06:40:00
看xx部 台湾不缺你说的这点小钱 用在哪而已
作者: neo5277 (I am an agent of chaos)   2023-10-11 07:45:00
这很台湾
作者: ko363630 (打杂路人甲)   2023-10-11 10:21:00
推分析 鬼岛有鬼岛的玩法
作者: sssyoyo (柚子)   2023-10-11 10:31:00
200亿拿去点面线、装潢、出国考察也不愿意投资未来最重要的AI,这就是鬼岛玩法
作者: IMBonjwa (好运到!!)   2023-10-11 13:16:00
不同意楼上。原Po第二点就有提到是否跳进这个烧钱的军备竞赛而排挤其他项目,才是真的命题
作者: elves (年年难过年年过)   2023-10-11 13:41:00
所以有人说得出两百多亿具体端了什么成果吗
作者: francej (~~~~)   2023-10-11 14:36:00
真的很难想像 台湾本土LLM 能赚到什么钱对岸不会用 欧美日也不会想用 只能岛内自己用这样讲起来 200亿拿去点面线 至少能让肚子吃饱 是还比较实在
作者: hoesi (就是坚持与众不同)   2023-10-11 15:45:00
实在个雕,点面线已经有现成的外送app,你做一样定位的东西干嘛
作者: ko363630 (打杂路人甲)   2023-10-11 16:21:00
点外送不是就有现成app了?
作者: Mchord (Mchord)   2023-10-12 10:03:00
就是因为有现成的他们才想做啊XD
作者: knme (knem)   2023-10-12 12:39:00
推推 之前硕班做相关研究 后来因硬件资源不足就乖乖去业界学术单位做研究本来就是针对某环节进行优化改善而已
作者: wayne0530 (小天)   2023-10-14 00:15:00
同意,问题是真的有商业价值吗?
作者: hillhsu (hillhsu)   2023-10-17 18:04:00
一直扯数位部,到底是有多低x??

Links booklink

Contact Us: admin [ a t ] ucptt.com