原文恕删
小弟刚好最近有跟到一些台湾LLM的发展,可以补充一下关于模型的部分。联发科的研究
单位联发创新基地,做语言模型有一段时间了,之前有一版Breeze-7B模型,发布了一篇
技术论文放在arxiv:
https://arxiv.org/pdf/2403.02712.pdf
论文提到这个模型是从mistral-7B 继续训练而成,花了7000小时的H100,灌了650GB的da
ta。如果有一半是中文,325GB,也灌了超过1000亿汉字(3bytes=1word),其实很多了啦
。
然后Breexe是从Mixtral训练而成,是更大一级的模型,论文好像还没出,但很多公司都
有不同大小的模型,做法应该不会差太多(?)。最近有开放API试用:
https://huggingface.co/MediaTek-Research/Breexe-8x7B-Instruct-v0_1
跟ChatGPT的比较,最重要的点应该是,像Breeze-7B这种已经开源的模型,对能架服务器
的公司来说,是用越多越赚;跟token收费的ChatGPT 用越多越贵截然不同。Breexe不知
道会不会开源就是了。
达哥的部分,没有亲自用过,但有认识的人用过。基本上就是平台,然后有一些功能,像
是读pdf等等。就把AI推广给更多人的东西,应该是不错啦。