作者: aassdd926 (打东东) 2021-04-09 10:50:00
Random forest 本身就是多个DT,他的 feature importance 是所有树加权平均过的。而这个数值主要依据树以此特征分裂下,数据impurity的下降程度(样本比例权重下)。用途上feature importance可以用来选取特征,例如重复删除后面10位不重要的特征,以找出让模型表现最好的特征subset,但也要小心过拟合的特征feature improtance 也会很高,容易受到误导如果要比较的话,我应该会把它转换成 rank