看到下面有篇大神有讨论到这次 Dcard ML 实习作业,因为没有收到团队的具体反馈
想和大家讨论作业的状况
题目是用结构资料,包含标题、看板资讯以及1-6小时的爱心数和评论数等等
来预测发文后 24 小时的爱心数
因为当时是期中,我只大概花了五天约二十个小时来做
我的作法大致如下
首先先用 XGBoost LightGBM 把量化资料做出 baseline
但没办法处理最重要的标题资讯
所以就直接拿 Huggingface BERT 来做
直接把资料喂进去的训练是无法收敛的
后来也尝试一些 Emsemble 和 training tricks
但也都没办法收敛,甚至达不到 baseline 的效果
认为是资料量的问题
到这边没什么特别想法就直接写报告了
我一直都主要是做 CV ,硕论跑去做 3D
对 NLP 非常不熟悉,不知道是否有漏掉关键操作
想请同有拿到作业的大神指点
谢谢