[讨论] 关于 Dcard ML 实习作业

楼主: Sixigma (六西格玛)   2023-05-14 01:29:57
看到下面有篇大神有讨论到这次 Dcard ML 实习作业,因为没有收到团队的具体反馈
想和大家讨论作业的状况
题目是用结构资料,包含标题、看板资讯以及1-6小时的爱心数和评论数等等
来预测发文后 24 小时的爱心数
因为当时是期中,我只大概花了五天约二十个小时来做
我的作法大致如下
首先先用 XGBoost LightGBM 把量化资料做出 baseline
但没办法处理最重要的标题资讯
所以就直接拿 Huggingface BERT 来做
直接把资料喂进去的训练是无法收敛的
后来也尝试一些 Emsemble 和 training tricks
但也都没办法收敛,甚至达不到 baseline 的效果
认为是资料量的问题
到这边没什么特别想法就直接写报告了
我一直都主要是做 CV ,硕论跑去做 3D
对 NLP 非常不熟悉,不知道是否有漏掉关键操作
想请同有拿到作业的大神指点
谢谢
作者: changecandy (changeming)   2023-05-14 03:05:00
你用BERT做了什么以及什么东西无法收敛?
作者: Tommnny (Tommynofinger)   2023-05-14 10:49:00
这边跪等神人分享 我们实验室没有人上
作者: Bujo (部长)   2023-05-14 12:01:00
这个案例建议使用LSTM序列
作者: cilovwx (卡卡缪)   2023-05-14 13:05:00
虽然我也没上,但我自己还有另外萃取出判断个版跟标题是否有分类之类的feature,这两项做关联度分析,相关性也不低
作者: DrTech (竹科管理处网军研发人员)   2023-05-14 14:36:00
你这样 concatenate bert出来的维度那么大,变成严重主导预测结果。但实际上但标题实际上根本不太会影响爱心与评论数。光看这点,就觉得你没有从最基本的业务理解business understanding来解了。对了,资料量有多打? 资料量少,用复杂的模型根本没用。资料量少的话,例如少于几万笔,对标题做任何处理可能都没太大意义。这题,爱心数,评论数的特征,相较于标题,标题绝对是噪声。HuggingFace tokenizer出来的标题维度很大的,只会让标题噪声主导一切。当然没办法收敛,很正常。资料量确实是问题。但人是否会根据标题就评论或点爱心,是你优先需要思考到的。
作者: cilovwx (卡卡缪)   2023-05-14 16:44:00
我自己对于标题的作法是单纯直接用snownlp去做sentimentpolarity 而已,因为我自己认为标题其实只是吸引大家点进去的机率,但按爱心的数量跟内容比较有相关。我的model部分,我记得我一开始用xgboost效果不是很好,所以我后来改用SVR跟一个我自己建的NN模型。但是我那时候也在准备其他事情,所以好像也没有fine-tuned 得很好
作者: hsuchengmath (AlbertHSU)   2023-05-14 17:01:00
遇到这种 一定是先做基本的统计分析啊,先看 24小时爱心数的分布,然后分成 多爱心数 和 少爱心数的,然后看哪些特征 是有用的,最后才建模啊,别在直接套膜了,不会进步的xdd
作者: DrTech (竹科管理处网军研发人员)   2023-05-14 17:54:00
谢谢你,长文那么仔细回应互动喔
作者: changecandy (changeming)   2023-05-14 18:43:00
直接使用BERT做预测的确是个挑战,原因有很多就不展开了,但你可以考虑换个用法,例如把BERT基于文字所预测的分数当成你主要预测模型的其中一项特征,这样也算是引入文字资讯了。
作者: Matz (妹妹C吸)   2023-05-14 21:13:00
去鸿海第一年150没问题
作者: abc21086999 (呵呵)   2023-05-14 23:37:00
烦不烦哪里都有鸿海
作者: email81227 (雨落田)   2023-05-15 03:09:00
好奇用哪个BERT Pre-Training的版本?
作者: nistik84114 (nistik)   2023-05-15 06:11:00
中文如果没在你用的bert的tokenizer里会直接被忽略喔 确认一下
作者: gamania0258 (肥宅azzzzzzzz)   2023-05-15 16:04:00
话一堆时间写作业还不给回馈 这间很像挺看得起自己的lul 只能说 没上是好事
作者: T160 (晴雨)   2023-05-15 22:35:00
我做法跟h大说的差不多XD 也是至少花了20小时以上时间搞这project 结果就一封罐头感谢函 好歹也给个排名吧真的很没诚意-_-
作者: hia261321 (叶子)   2023-05-16 09:42:00
根据之前看同学打比赛 我猜可能有人自己去抓dcard的额外资料来训练 资料量比一般人多很多的情况下随便丢个模型都赢大家
作者: aacs0130 (湛靈)   2023-05-27 13:44:00
推hsuchengmath跟DrTech

Links booklink

Contact Us: admin [ a t ] ucptt.com