[问题] categorical & continuous variable

楼主: yun611 (芸芸)   2016-08-27 00:18:06
之前在做project的时候
没有多想就没有把分类变量设成factor
所以在做变量选择和建立模型的时候
都是把分类变量默认成continuous
像是Race分成5种(1.2.3.4.5用这五个数字代替)
但是因为现在所剩时间不多...
所以可能没办法再从头改整个data mining过程
如果直接默认成continuous做出来的结果是可以的吗?
会不会有很大的问题出现...
查了一些国内国外资讯
没有特别讲到这块
然后好像也有人是直接就默认成continuous
想问版上各位强者有什么想法?
谢谢!
作者: andrew43 (讨厌有好心推文后删文者)   2016-08-27 18:20:00
非常不恰当,建议还是转factor。
楼主: yun611 (芸芸)   2016-08-27 18:46:00
请问一下转factor之后,有哪些方法可以用来variable selection的吗?大多数找到都是continuous情况的有查过group lasso但是一直做不出来.....或是说在有dummy的情况下,有没有什么选择变量的原则?
作者: andrew43 (讨厌有好心推文后删文者)   2016-08-27 20:34:00
我不熟lasso,但建议你先给一段具体的程式码请再大家修至少要知道你用什么function之类的,不然难回应。
作者: Wush978 (拒看低质媒体)   2016-08-30 00:45:00
continuous的变量在处理时常常假设 1与2的差距和2与3相同所以以race为例,如果你设定为continuous很容易处理时出问题factor的缺点在资料量不够时,会有模型不稳定的问题但是通常作法是小类合并成大类,而非转成continuous你必须要确保我刚刚讲的假设是正确的,才用continuous处理会比较好

Links booklink

Contact Us: admin [ a t ] ucptt.com