Re: [新闻] 辉达H100显卡“订价139万”...上架就秒杀

楼主: bachelorwhc (单身老王)   2024-07-07 11:44:03
※ 引述《sxy67230 (charlesgg)》之铭言:
: H100真正的目的就是拿来训练LLM跟NN模型而已,普通人根本没Data是要训练三小模型= =
: ?
看你讲那么大声 结果根本外行
训练LLM的dataset网络上都找得到 根本看不完
从wikipedia撷取到从fandom蒐集次文化资料、pdf电子书等等
还有专门RolePlay的chat资料集
跟从游戏撷取的对话文本等等.....
只要你的运用不偏门 大部分的资料都找得到
自己写一个爬虫也没多难 我上周才写了一个爬pixiv dict的程式
LLM的pretrain跟fine tuning资料来源不是问题 时间跟钱才是
大部分的做法是拿现有pretrain过的model在runpod上租GPU来再训练

Links booklink

Contact Us: admin [ a t ] ucptt.com