※ 引述《DrTech (竹科管理处网军研发人员)》之铭言:
: 2. 训练模型会先卡什么?
: 目前,台湾任何一个单位,根本没能力研发LLM模型架构。台智云,中研院,或其他任何单位。
: 都是基于LLaMA2上去 fine-tune的。
: 所以模型都是 7B 13B 70B大小。
: 而是大概都是用QLORA或相关技术去 fine-tune的。这些都是open source直接去套而已,
: 完全没有任何技术门槛。
: (只有谁愿意采购几千万硬件的门槛而已)
身为LLM猴子,大多同意DrTech的看法,只是台智云这块有点不一样。
其实台智云有几乎一半台湾杉2号的机器可以用,
也克服很多开源软件无法解决的问题;例如硬件是V100不是A100,
又要能够做3D model parallelism,又要同时能跑LoRA,RLHF,
在100Gbps网络中维持GPU使用率满载等等。在meta llama出来之前,
我们还是跑BLOOM-176B,硬件需求更高。
我想说的是,在LLM训练阶段,许多硬件门槛已经被台智云推倒了,
台湾杉2号还能够做很多事!我觉得可惜的是政府,学界,企业的整合部份,
因为不同单位考量的利益是不同的,企业只做特定任务finetune是因为
客人就需要这种东西,至于基础模型的训练无法在短时间内看到好处,
比较适合政府和学研单位主导。LLM猴子什么咖都不算,在公司内拍桌说要
开源也没人听(还好没有被开除XD)
例如TAIDE是很有潜力当个统合协调的角色,看起来官学合作已经成型,
只剩业界无法进去?纵使业界在台湾杉2号上已经有许多突破,
但我们没办法有机会透过某种合作的形式让学界也使用我们的技术,
然后公司又不像学界那样以论文产出为目标,所以很难说服老板去
做些"开源"的工作,自然也不会做些纯研究的项目。
台湾杉2号绝对能够做到清理commoncrawl、FP16精度训练不用QLoRA、
训练超过176B参数的大模型。希望大人物们(产官学)能够多多思考和沟通,
看怎么促成更多人的合作囉。