Re: [讨论] 中研院繁中LLM被爆直接拿对岸的来套 alex780312 PTT批踢踢实业坊

Re: [讨论] 中研院繁中LLM被爆直接拿对岸的来套

楼主: alex780312 (Alex) 2023-10-14 15:46:23

※ 引述《DrTech (竹科管理处网军研发人员)》之铭言：
: 2. 训练模型会先卡什么？
: 目前，台湾任何一个单位，根本没能力研发LLM模型架构。台智云，中研院，或其他任何单位。
: 都是基于LLaMA2上去 fine-tune的。
: 所以模型都是 7B 13B 70B大小。
: 而是大概都是用QLORA或相关技术去 fine-tune的。这些都是open source直接去套而已，
: 完全没有任何技术门槛。
: (只有谁愿意采购几千万硬件的门槛而已)
身为LLM猴子，大多同意DrTech的看法，只是台智云这块有点不一样。
其实台智云有几乎一半台湾杉2号的机器可以用，
也克服很多开源软件无法解决的问题；例如硬件是V100不是A100，
又要能够做3D model parallelism，又要同时能跑LoRA，RLHF，
在100Gbps网络中维持GPU使用率满载等等。在meta llama出来之前，
我们还是跑BLOOM-176B，硬件需求更高。
我想说的是，在LLM训练阶段，许多硬件门槛已经被台智云推倒了，
台湾杉2号还能够做很多事！我觉得可惜的是政府，学界，企业的整合部份，
因为不同单位考量的利益是不同的，企业只做特定任务finetune是因为
客人就需要这种东西，至于基础模型的训练无法在短时间内看到好处，
比较适合政府和学研单位主导。LLM猴子什么咖都不算，在公司内拍桌说要
开源也没人听（还好没有被开除XD）
例如TAIDE是很有潜力当个统合协调的角色，看起来官学合作已经成型，
只剩业界无法进去？纵使业界在台湾杉2号上已经有许多突破，
但我们没办法有机会透过某种合作的形式让学界也使用我们的技术，
然后公司又不像学界那样以论文产出为目标，所以很难说服老板去
做些"开源"的工作，自然也不会做些纯研究的项目。
台湾杉2号绝对能够做到清理commoncrawl、FP16精度训练不用QLoRA、
训练超过176B参数的大模型。希望大人物们（产官学）能够多多思考和沟通，
看怎么促成更多人的合作囉。

作者: ToastBen (吐司边) 2023-10-14 23:27:00

说个笑话：产官学

作者: DrTech (竹科管理处网军研发人员) 2023-10-15 00:12:00

很好的讨论，让大家看到更多想法

作者: zanyking (最后的六年级生) 2023-10-15 00:29:00

推，希望看到更多通用的合作与尝试

楼主: alex780312 (Alex) 2023-10-15 10:24:00

补充一下，台智云像是官+产的合作，目的在充分发挥台湾杉二号使用率，但缺乏学研角色。现况是台湾杉的资源被切成两半各做各的，台智云考量time to market ，而TAIDE 可以慢慢打磨，路线不同

作者: Csongs (西歌) 2023-10-16 15:44:00

推一个

作者: sbL (sbl) 2023-10-17 02:09:00

推

作者: adamlin120 (Adam) 2023-10-23 01:49:00

https://twllm.com

继续阅读

[讨论] Email算是严重的个资吗？secretfly [新闻]剖析中研院大型语言模型事件的冲击 MARKMARK Re: [请益] 增加写程式生产力的建议h22349 [请益] 增加写程式生产力的建议iamshiao Re: [讨论] 台北软件公司的天花板是哪间？allmight7912 [活动] 志工招募！ Python官方文件繁体中文翻译 rockleon Re: [请益] 曾瑞君老师的Java课程h22349 [心得] 加密档案的好工具 - ageappleboy46 Re: [请益] 曾瑞君老师的Java课程TKB5566 [讨论] 这波人事寒冬会持续到何时？B0988698088