Re: [问题] movielens将电影类别分类 HeroNoah PTT批踢踢实业坊

Re: [问题] movielens将电影类别分类

楼主: HeroNoah 2014-05-27 01:20:21

※ 引述《locka (locka)》之铭言：
: [问题类型]:
:
: 程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
:
: [软件熟悉度]:
: 入门(写过其他程式，只是对语法不熟悉)
: [问题叙述]:
: 请简略描述你所要做的事情，或是这个程式的目的
: 不晓得这里有没有人在玩movielens的资料？
: 我从movielens 下载电影的资料其中有一个叫做movies.dat的档案
: movielens 10M:
: http://grouplens.org/datasets/movielens/
: 经过我整理后存成一个三个字段的data frame 如下：
: ID Title Genres
: 1 Toy Story Adventure|Animation|Children|Comedy|Fantasy
: 2 Jumanji Adventure|Children|Fantasy
: ... ... ...
yourData
: 电影的类型总共有18种但上述Genres字段只会显示该电影的类型
: 而我今天想要想要玩的是
: 针对Genres这个字段做类似购物篮分析的事情,找出哪些电影属性相似
: 也就是想要产生一个data frame纪录电影类型的向量
: 例如如果某部电影是动作片则动作片字段值为1 反之为0
: 最后想要产生的结果如下
: ID Adventure Animation Children Comedy Fantasy ......
: 1 1 1 1 1 1 ......
: 2 1 0 1 0 1 ......
: ... ... ... ... ... ... ......
: 我最初的想法是先为每种电影类型新增字段将其默认值设为0
: 然后逐一比对genres字段如果有match则将值改为1
: 不过当我输入以下指令以后
: movie <- data.frame("ID"=movies$V1, "Adventure", "Animation",...)
: 字段变成
: ID X.Adventure X.Animation X.children.....
: 1 Action Animation Children
: 2 Action Animation Children
: ...
: 不知道该如何下手...(搔头)
: 亦或是有其他更好的作法也欢迎讨论
: 希望大家可以提点一下小的,感激不尽啊！
After reading README file,
there are some helpful information of the data.
## Try It
genre = read.csv(
file = "u.genre",
header = FALSE,
sep = "|",
stringsAsFactors = FALSE
)
myData = read.csv(
file = "u.item",
header = FALSE,
sep = "|",
stringsAsFactors = FALSE
)
myData = within(
data = myData,
expr = rm(V2, V3, V4, V5)
)
colnames(myData) = c("ID", genre$V1)
## Merge Two Data Frames, If You Need
merge(yourData, myData, by = "ID")

继续阅读

[问题] movielens将电影类别分类locka Re: [问题] 透过R使用Rhdfs package读取超大CSV档dppman [问题] 型别转换？ljta Re: [问题] 透过R使用Rhdfs package读取超大CSV档Wush978 Re: [问题] 透过R使用Rhdfs package读取超大CSV档dppman [问题] 加载TSA 但没有eacf和coeftest函数IminXD [问题] 建置个人的R + Hadoop环境Pagan [问题] 透过R使用Rhdfs package读取超大CSV档dppman 需要懂R的人帮忙解释一小段芯片微阵列程式码waynecomm021 Re: [问题] 如何找出不同档案中两个栏(column)重复值koai