※ 引述《sxy67230 (charlesgg)》之铭言:
: H100真正的目的就是拿来训练LLM跟NN模型而已,普通人根本没Data是要训练三小模型= =
: ?
看你讲那么大声 结果根本外行
训练LLM的dataset网络上都找得到 根本看不完
从wikipedia撷取到从fandom蒐集次文化资料、pdf电子书等等
还有专门RolePlay的chat资料集
跟从游戏撷取的对话文本等等.....
只要你的运用不偏门 大部分的资料都找得到
自己写一个爬虫也没多难 我上周才写了一个爬pixiv dict的程式
LLM的pretrain跟fine tuning资料来源不是问题 时间跟钱才是
大部分的做法是拿现有pretrain过的model在runpod上租GPU来再训练