[问题类型]:
程式咨询(我想用R 做某件事情,但是我不知道要怎么用R 写出来)
[软件熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
透过logit model,用各个商品的属性及是否阅读商品评论,预测消费者会购买哪种商品
为了实作predit()要分割资料集
已知caret package的createDataPartition能将训练与测试集的商品依比例平均分布
但资料集为long format,每四列为一个单位(一个受测者产生四列资料,为四个商品)
使用createDataPartition后,资料被打散了,不再是每四列为一单位
该如何保持资料每四列一个单位,但训练与测试集中的商品还是可以按比例分布呢?
ps被购买的商品比例本来就不平均,但希望训练集与测试集的比例相同,例如10:5:2:1
[程式范例]:
共有432名受测者,1728列资料,long format资料集如图 http://imgur.com/pWhvNCF
各商品被购买的比例大约为
HighJ HighU LowJ LowU
272 80 60 20
library(caret)
Train <- createDataPartition(mydata$purchase, p=0.6, list=FALSE)
training <- mydata[ Train, ]
testing <- mydata[ -Train, ]
照上述程式码跑无错误讯息,但是资料被打散
推测可能是用来取index的mydate$purchase有问题,不知道该怎么改才好@@
[环境叙述]:
R version: 3.2.3 (2015-12-10)
Platform: x86_64-w64-mingw32
Running under: Windows >= 10
[关键字]: