Re: [讨论] 关于 Dcard ML 实习作业

楼主: EvilSD (邪星暗(Usagi))   2023-05-15 21:35:24
: 题目是用结构资料,包含标题、看板资讯以及1-6小时的爱心数和评论数等等
: 来预测发文后 24 小时的爱心数
来云一下我可能会怎么做
如果假设我没理解错误题目的话,应该基于给予的前六小时的资料,
去预测未来24小时候的爱心数吧?
首先这题目我可能就不会考虑用NLP来做处理,主要是资料量可能不足
再加上中文NLP来做除了麻烦外效果可能也不会太好
想法是有了1~6小时的爱心数跟评论量,预测未来24小时的爱心数
基本上标题文字的意义其实可能就不是那么重大,有强烈特征的可能只是一两个关键字
而且有了前六小时的数据,基本上不用标题也能够推估未来的数字
所以觉得这题比较难的是,你没有6小时之后的资料,所以很难预估一个趋势
(除非有给完整趋势资料)
因此我会将看板资讯转成单纯数字的Label,
或是可以取得与看版相关的人气值正规化后做代替
将标题做关键字提取,并且做文字云把重复的强烈关键字与留言爱心数做对应,
重新建一个特征值
接下来就有完整的特征值资料,做一下特征值的关联性或是强度分析
挑几个觉得强烈的出来训练一个模型即可(ML与DL都可以)
(应该用LSTM效果比较好)
基本上能简单做就不会想太复杂处理,单纯一个想法也确定可不可行,供大家讨论参考
作者: hsuchengmath (AlbertHSU)   2023-05-16 07:55:00
为啥会没有24小时后的资料,dcard文章不是一大堆,随便爬都有啊
作者: oopFoo (3d)   2023-05-16 07:56:00
我也觉的是这个方向,但关键字应该也是重要,但关键字如何提取,应该是dl训练出来的。我觉的这题关键是如何提取关键字,不然有6小时的资料应该很容易预测24小时的爱心数。而且给time series的资料,应该就是想用transformer
作者: DrTech (竹科管理处网军研发人员)   2023-05-16 11:10:00
5万笔资料用transformer 去over-fitting? 资料量那么少,模型用那么复杂,效果好也是运气没有对错,纯个人不同看法。
作者: ekids1234 (∵:☆星痕╭☆)   2023-05-16 12:27:00
transformer 一般来说要到哪个数量级才勉强及格 ?
作者: oopFoo (3d)   2023-05-16 13:01:00
我猜现在所有人都在用bert/gpt,找intern应该也是想要延续公司正在做的,transformer也许不是最适合这题,但可能是dcard想找的人。只是盲猜,提出来聊聊。面试,考题,机运蛮重要的。这种"标题"对"星星"的decoder应该很简易训练,反正资料少
作者: h920032 (王者迪西)   2023-05-16 13:38:00
用BOW就够了吧
作者: penniless   2023-05-17 13:58:00
挑一个预训练的中文模型,五万条fine tune transformer很够了... 2023了没人在train from scratch
作者: brucetu (sec)   2023-05-18 00:00:00
你在讲什么 自己改题目? 还没发文哪来的前六小时?
作者: DrTech (竹科管理处网军研发人员)   2023-05-18 00:05:00
用transformer,尤其是直接标题放进去train就是准备 over-fitting啊,ML基本常识。 BERT Embedding+ 下游小模型,我还觉得稍微有点ML常识。这吴恩达的deep learning或各种ML经典教科书都有写吧。资料量少要用小模型。或者把 transformer或BERT的layer抽掉几层成为较小模型也可。用小模型是为了降低模型的Variance,这基本常识吧。
作者: oopFoo (3d)   2023-05-18 08:49:00
这就是很诡异的地方,现在用LLMs,用少少的data fine tune效果奇异的好。也许LLMs里的"知识"够多,adaptation效果奇佳。在twitter上看到一些专研NLP的学者有点垂头丧气,说以后不用研究了
作者: brucetu (sec)   2023-05-18 20:04:00
这也不是今年才这样 没人在from scratch了
作者: DrTech (竹科管理处网军研发人员)   2023-05-21 13:46:00
你们都来乱的吧,你去看各种task排行榜,paperwithcode排行榜,有哪个top-3 solution是LLM+fine-tune?完全没有。身为工程人员,讲科学证据吧。不要靠幻想感受。而且LLM跑一个完整预测结果,正常机器,要数秒。用怎么可能上正常有流量的产品。效果好要讲科学证据啦,公开资料集测一下,不要靠猜测或个人感受。

Links booklink

Contact Us: admin [ a t ] ucptt.com