Re: [问题] R语言在Data mining 的应用

楼主: celestialgod (天)   2016-03-04 10:30:28
不专业的回一下
※ 引述《SangoDragon (SANGO)》之铭言:
: 本人之前都是用 SQL + Mining tools (例如MS-SQL Analysis service , SPSS Modeler)
: 之前大部分是用 SQL 整理资料
: 之后再用 mining Tools run mining (包含调参数等等)
: 例如我们做一个罗吉斯回归,去预测信用卡客户是否会变呆卡
: 或用 CART 去做回应率分析
: 现在关于 R 我有一些问题:
: 1. R的mining 函数支援到那些算法?
: 例如:分群,类神经网络,CART 等等?
分群的话有数种方法,大多数R都有,从k-means, hierarchical clustering到
一些模型假设的分群如EMClust提供Finite Mixture Gaussian Distribution的分群手法
分几群都会有参数在控制,或是hierarchical clustering怎么切都有参数控制。
NN,我不太熟,但是CART的话,R至少两个套件支援,tree跟rpart,参数可调的不少,
这部分可以自己读一下manual,也有randomForest的套件支持
: 2. R有办法调参数吗?
: 例如分群时分几群,CART的切点,等等 (这部分在mining tools 都有很强的支援)
如1回答
: 3. R怎样做Mining前的资料处理?
: SQL 强的地方在于下语法可以做很多资料预处理
: 例如:资料中只有生日要转换成年龄,还有一些更复杂要套公式转换的部份等等
: SQL 的资料可以存很多资料
: R 在预处理部分的强度如何?
: 总不能一直读EXCEL的资料吧?
: 我要表达的是,在资料面SQL 数据库有很强大的SQL语法,跟储存面
: R 的方式?
R使用dplyr整理资料就很快了,可以看我的资料整理套件介绍系列文 (签名档)
: 4. 这张图 http://i.imgur.com/iMTOAoG.jpg
: 是否过誉?
: 以MS-SQL mining 而言,建构好一个预测模型,可以利用MDX等等
: 去对这个Model 做一些处理,例如输入资料做预测等等
: 而且也有很多图形接口的输出
我认为R比SAS跟SPSS好用很多,这些比较都合情合理。
: 以上几点问题
作者: psinqoo (零度空間)   2016-03-04 13:21:00
在R计算完后能回写SQL~也能够透过shiny图示~很多的package是需要研究 然后也能调参数~现在我是从SQL资料 捞资料透过R运算后 回写导SQL数据库R 还能作机器学习
作者: carl090105 (Jing)   2016-03-04 18:40:00
R接数据库是蛮容易的,处理资料就看你要在SQL就处理好还是用dplyr+data.table来处理,个人是觉得比python的pandas好用多了~
作者: JackBaska (Baska)   2016-03-08 23:20:00
同意楼上,dplyr推出是R单在资料处理上胜python的关键
作者: Ouranos (å—¨)   2016-03-13 10:31:00
大推系列文!谢谢原po~!!!

Links booklink

Contact Us: admin [ a t ] ucptt.com