[问题] Variable selection

楼主: yun611 (芸芸)   2016-08-26 18:08:06
小妹现在正在做data mining相关的project
但是遇到一个问题
我的data里面有categorical 和numeric variable
如果是在回归里
我知道要把分类变量转换成factor
然后回归会帮我跑出dummy variables来解释结果
但是如果是用lasso在variable selection这个步骤的时候
分类变量要怎么去解读呢?
(因为可能变量选择完后,部分dummy variable有系数部分没有)
另外如果是要分析这样的数据集,
是不是只有特定的variable selection方法才能做?
谢谢!
作者: JX660 (JX)   2016-08-26 18:46:00
以4类3栏设成dummy的变量为例 应该是视为一个变量来看所以只有三栏全拿掉或三栏全加入两种 就算有一栏的系数是0
楼主: yun611 (芸芸)   2016-08-26 18:57:00
那要怎么决定全拿掉还是全留下呢?如果全留下的话,建立模型的时候要用原始变量还是dummy variable来做预测?
作者: celestialgod (天)   2016-08-26 20:03:00
用group lasso
楼主: yun611 (芸芸)   2016-08-26 22:12:00
能不能把变量当成continuous做变量选择后建立模型的时候再把分类变量设成factor

Links booklink

Contact Us: admin [ a t ] ucptt.com