PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Soft_Job
Re: [讨论] 中研院繁中LLM被爆直接拿对岸的来套
楼主:
alex780312
(Alex)
2023-10-14 15:46:23
※ 引述《DrTech (竹科管理处网军研发人员)》之铭言:
: 2. 训练模型会先卡什么?
: 目前,台湾任何一个单位,根本没能力研发LLM模型架构。台智云,中研院,或其他任何单位。
: 都是基于LLaMA2上去 fine-tune的。
: 所以模型都是 7B 13B 70B大小。
: 而是大概都是用QLORA或相关技术去 fine-tune的。这些都是open source直接去套而已,
: 完全没有任何技术门槛。
: (只有谁愿意采购几千万硬件的门槛而已)
身为LLM猴子,大多同意DrTech的看法,只是台智云这块有点不一样。
其实台智云有几乎一半台湾杉2号的机器可以用,
也克服很多开源软件无法解决的问题;例如硬件是V100不是A100,
又要能够做3D model parallelism,又要同时能跑LoRA,RLHF,
在100Gbps网络中维持GPU使用率满载等等。在meta llama出来之前,
我们还是跑BLOOM-176B,硬件需求更高。
我想说的是,在LLM训练阶段,许多硬件门槛已经被台智云推倒了,
台湾杉2号还能够做很多事!我觉得可惜的是政府,学界,企业的整合部份,
因为不同单位考量的利益是不同的,企业只做特定任务finetune是因为
客人就需要这种东西,至于基础模型的训练无法在短时间内看到好处,
比较适合政府和学研单位主导。LLM猴子什么咖都不算,在公司内拍桌说要
开源也没人听(还好没有被开除XD)
例如TAIDE是很有潜力当个统合协调的角色,看起来官学合作已经成型,
只剩业界无法进去?纵使业界在台湾杉2号上已经有许多突破,
但我们没办法有机会透过某种合作的形式让学界也使用我们的技术,
然后公司又不像学界那样以论文产出为目标,所以很难说服老板去
做些"开源"的工作,自然也不会做些纯研究的项目。
台湾杉2号绝对能够做到清理commoncrawl、FP16精度训练不用QLoRA、
训练超过176B参数的大模型。希望大人物们(产官学)能够多多思考和沟通,
看怎么促成更多人的合作囉。
作者:
ToastBen
(吐司边)
2023-10-14 23:27:00
说个笑话:产官学
作者:
DrTech
(竹科管理处网军研发人员)
2023-10-15 00:12:00
很好的讨论,让大家看到更多想法
作者:
zanyking
(最后的六年级生)
2023-10-15 00:29:00
推,希望看到更多通用的合作与尝试
楼主: alex780312 (Alex)
2023-10-15 10:24:00
补充一下,台智云像是官+产的合作,目的在充分发挥台湾杉二号使用率,但缺乏学研角色。现况是台湾杉的资源被切成两半各做各的,台智云考量time to market ,而TAIDE 可以慢慢打磨,路线不同
作者:
Csongs
(西歌)
2023-10-16 15:44:00
推一个
作者:
sbL
(sbl)
2023-10-17 02:09:00
推
作者:
adamlin120
(Adam)
2023-10-23 01:49:00
https://twllm.com
继续阅读
[讨论] Email算是严重的个资吗?
secretfly
[新闻]剖析中研院大型语言模型事件的冲击
MARKMARK
Re: [请益] 增加写程式生产力的建议
h22349
[请益] 增加写程式生产力的建议
iamshiao
Re: [讨论] 台北软件公司的天花板是哪间?
allmight7912
[活动] 志工招募! Python官方文件繁体中文翻译
rockleon
Re: [请益] 曾瑞君老师的Java课程
h22349
[心得] 加密档案的好工具 - age
appleboy46
Re: [请益] 曾瑞君老师的Java课程
TKB5566
[讨论] 这波人事寒冬会持续到何时?
B0988698088
Links
booklink
Contact Us: admin [ a t ] ucptt.com