※ 引述《wvookevp (ushiromiya)》之铭言:
: 忽然想到
: 如果改天
: PTT将强制所有推文无偿用于AI训练
: 最后训练出来的帐号推文会是什么模样?
: 有没有希洽?
中国有人试过类似的事情了
不过他们拿来训练的 是一个叫弱智吧的贴吧(讨论板)
https://www.youtube.com/watch?v=ghLCJRTAlMA
相关的研究方法后来还被发表成了论文 可以搜寻ruozhiba
总之弱智吧不管初衷为何 后来逐渐演变成一种幽默的笑话板
但前提是你电波能对得上
如果要拿PTT的资料来做训练 实际上是会有噪声的
因为PTT的呈现方式 你要能够辨识出是哪些板友在底下讨论
这种前后文的关系梳理 本来就需要繁杂的预处理
弱智吧本身的灌水量不低 所以就算是资料集也是透过指标筛选或人为推荐的
PTT的状况是 一篇爆文底下可能80%的推文都是一样的
这样的训练资料并没有太大意义
除非你今天是要训练专门推嘘文的空军
那针对特定议题或关键字直接膝反射推嘘 那是没问题
而且我相信 已经有人在这么干了