首Po赚个P币
个人对Learning to rank略有接触,想说从一个不同的角度切入百大排名这件。
首先找到一组权重去对球员排名本身就是非常困难的问题。像前面版友讲的,有人会说得分王重要乘以2,有人会说强分区要加权,还是不是要考虑DPOY/正负值/季后赛胜率/明星赛次数...要考虑的特征排列组合非常非常多,还要帮每个特征选出一个权重。
所以从资料科学的角度,常用的方式就是用监督式机器学习从现有的资料里学出权重,这种方式必须要标记的资料。举个例子:
大家都把自己的百大排名打在下方,这样我们可能就得到了一些样本可以去建立回归模型。
然而以上也只是理想中的情况,实际上还有很多问题。首先是资料标记的问题 : 一般人大概排到第十几个球员就懒得排下去了。这时候我们可以把排序问题变成比较问题 (MJ >> Curry 之类的),当我们有足够的一组组的比较样本之后,就也比较容易排出序列。
当然取得以上的资料后还会有很多问题,比方说以上的资料可能会有矛盾,又或者有反串,重复留言....之类的问题要处理。用哪些特征也是需要钻研的。而且最终学出来的权重也可能只是符合NBA版上对这篇文有留言的人的数据分布而已,说不定相较于广大群众是反指标。
但至少我们可以透过分割资料的方式去评估这个模型的精确度,应该会比直接人为的定义权重略微符合风向。