Re: [问卦] 告白时怎么知道自己成功率多少?

楼主: permoon (有志难伸优质写手ㄉㄉ)   2022-08-15 20:00:59
※ 引述《s110269 ()》之铭言:
: 本鲁母胎单身
: 好奇各位告白时,应该是觉得很有把握会成功吧
: 那怎么衡量自己告白会成功的机率呢?
: 有哪些量化指标可以参考?
这位兄day,你问了一个非常有深度的问题,
要计算出告白成功的机率,我建议采取以下流程:
1. 资料蒐集/资料标记
首先你需要想办法蒐集到包含下列资料的足够样本,我看最少需要个几千笔,
a.人口统计变项:年龄、性别、居住地、职业、年收入、身高、体重、有无房产等。
b.大头照:尽量规格标准化,两吋脱眼镜不戴帽之类的。
以上两种类型资料都要包含告白者跟被告白者喔~~
c.资料标记:每个样本一定要标记是否告白成功,不然模型没有Y去学习。
2. EDA(探索性资料分析)
接下来我们会看看用各种交叉分析、相关分析,
去看依变量(人口统计变项/大头照特征)跟应变量(是否告白成功)的关系,
检查变量个合理性,顺便侦测遗漏值跟极端值。
3. 遗漏值/极端值处理
承上一步骤,如果该补的遗漏值跟该删掉或对数处理的极端字段记得要处理。
4. 特征工程
这一步就是大学问了,整个预测结果准不准大概70%以上看这段了。
大头照的部分用Python PIL套件把非结构的图片提取特征,
人口统计变项的部分该对数处理的、该取Z-score的记得做,
One-Hot-Encoding这种最最基本的也就不用特别提了,
总之基本功跟各种苦工不可少。
另外,如果你同温层太宅太废太臭,告白成功的样本数太低,
造成样本是稀疏资料的话,记得Oversampling来处理balance问题。
5. 建模
资料都处理完了,接着就可以丢进去建模啦~~
我们不是什么AI大师,不用自己搞算法,直接拿现成模型来随便套套就好了,
虽说如此但也不能太乱来,这次要预测的是类别型的标记资料,
Logistic Regression跟各种Tree Base Model像是XGBoost、LightGBM都很适合。
资料拆成测试集跟训练集,训练集建模然后用测试集来衡量模型是不适合,
AUC画出来、Confusion Matrix弄出来看看各种指标,检查一下模型效果~~
然后因为样本数应该不会太多,所以要注意over fitting的问题~~~
6. 预测机率
把你自己跟心仪对象的的人口统计变项、从照片提取的特征值丢进模型,
恭喜你,你得到了这次告白成功的预测机率值了!!!

Links booklink

Contact Us: admin [ a t ] ucptt.com