[问题] python sklearn DT/RF feature important

楼主: s82237823   2021-04-08 11:54:51
大家好
我最近正在练习使用sklearn library
主要是在用decision tree/random forest这两个算法
我想请问一下这两个的feature importance
(同一个dataset 以及使用sklearn的importance_ )
我每一个feature importance的值都落在0.1-0.2之间
请问这个值本身有什么意义吗?
另外这个是只限于这个算法里面使用还是可以比较?
比如说我同一个dataset
DT 的 importance 是10-20之间
然后 RF得到的是0.1-0.2之间
这两个算法拿到的feature importance是有可比性的吗?
谢谢
作者: aassdd926 (打东东)   2021-04-09 10:50:00
Random forest 本身就是多个DT,他的 feature importance 是所有树加权平均过的。而这个数值主要依据树以此特征分裂下,数据impurity的下降程度(样本比例权重下)。用途上feature importance可以用来选取特征,例如重复删除后面10位不重要的特征,以找出让模型表现最好的特征subset,但也要小心过拟合的特征feature improtance 也会很高,容易受到误导如果要比较的话,我应该会把它转换成 rank

Links booklink

Contact Us: admin [ a t ] ucptt.com