Re: [问题] dataframe字串切割 wmj10054039 PTT批踢踢实业坊

Re: [问题] dataframe字串切割

楼主: wmj10054039 (MJ) 2018-06-06 17:42:18

※ 引述《celestialgod (天)》之铭言：
: ※ 引述《wmj10054039 (MJ)》之铭言：
: : [问题类型]:
: : 程式咨询(我想用R 做某件事情，但是我不知道要怎么用R 写出来)
: : [软件熟悉度]:
: : 入门(写过其他程式，只是对语法不熟悉)
: : [问题叙述]:
: : 我目前整理了一份学校所有课程的时间表，想知道不同星期，不同地点，各时段的
: : 人数统计。dataframe资料范例如下:
: : 流水号课程名称时间地点人数
: : 102 A 二3,4四5,7 甲 10
: : 248 B 一1,2,3 乙 20
: : 314 C 三4五7,8,a 丙 5
: : 想请问各位可以用什么方法对时间那一栏作字串切割变成以下新的dataframe
: : 流水号课程名称星期节次地点人数
: : 102 A 二 3 甲 10
: : 102 A 二 4 甲 10
: : 102 A 四 5 甲 10
: : 102 A 四 7 甲 10
: : 248 B 一 1 乙 20
: : 248 B 一 2 乙 20
: : . .
: : . .
: : . .
: : 目前想法只有想到for循环搭配strspilt，但还是想不到实际写法，麻烦各位指教了，谢谢
: : [环境叙述]
: : R version 3.4.2
: 程式：
: library(data.table)
: library(pipeR)
: library(stringr)
: dataStr <- "流水号课程名称时间地点人数
: 102 A 二3,4四5,7 甲 10
: 248 B 一1,2,3 乙 20
: 314 C 三4五7,8,a 丙 5"
: removeEmptyFunc <- function(x) x[nchar(x) > 0]
: fread(dataStr) %>>%
: `[`(j = `:=`(星期 = str_split(时间, "[a-zA-Z0-9,]+") %>>%
: lapply(removeEmptyFunc),
: 节次 = str_split(时间, "[^a-zA-Z0-9,]+") %>>%
: lapply(removeEmptyFunc))) %>>%
: `[`(j = .(星期 = unlist(星期), 节次 = unlist(节次)),
: by = .(流水号, 课程名称, 地点, 人数)) %>>%
: `[`(j = `:=`(节次 = str_split(节次, ","))) %>>%
: `[`(j = .(节次 = unlist(节次)), by = .(流水号, 课程名称, 地点, 人数, 星期))
: ## no pipe 程式码
: dataDT <- fread(dataStr)
: dataDT[ , `:=`(星期 = lapply(str_split(时间, "[a-zA-Z0-9,]+"),
: removeEmptyFunc),
: 节次 = lapply(str_split(时间, "[^a-zA-Z0-9,]+"),
: removeEmptyFunc))]
: tmpDT <- dataDT[ , .(星期 = unlist(星期), 节次 = unlist(节次)),
: by = .(流水号, 课程名称, 地点, 人数)]
: tmpDT[ , `:=`(节次 = str_split(节次, ","))]
: tmpDT[ , .(节次 = unlist(节次)), by = .(流水号, 课程名称, 地点, 人数, 星期)]
: 结果：
: # 流水号课程名称地点人数星期节次
: # 1: 102 A 甲 10 二 3
: # 2: 102 A 甲 10 二 4
: # 3: 102 A 甲 10 四 5
: # 4: 102 A 甲 10 四 7
: # 5: 248 B 乙 20 一 1
: # 6: 248 B 乙 20 一 2
: # 7: 248 B 乙 20 一 3
: # 8: 314 C 丙 5 三 4
: # 9: 314 C 丙 5 五 7
: # 10: 314 C 丙 5 五 8
: # 11: 314 C 丙 5 五 a
我在回应区的问题是想要把如果节次包含3节以上的课程，只取出头跟尾的节次，并且只有
一节课的课程重复两次，也就是说每个课程重复在dataframe的次数都会是偶数倍(主要
目的是想知道每个时段下不同地点会产生的进出人数)，举例来说:
流水号课程名称时间人数地点
102 A 二3,4四5,7 10 甲
248 B 一1,2,3 20 乙
314 C 三4五7,8,a 5 丙
整理成
流水号课程名称地点人数星期节次
102 A 甲 10 二 3
102 A 甲 10 二 4
. .
. .
. .
248 B 乙 20 一 1
248 B 乙 20 一 3
314 C 丙 5 三 4
314 C 丙 5 三 4
314 C 丙 5 五 7
314 C 丙 5 五 a
我目前的想法是利用c大处理我之前问题的方法，将已经把时间拆开成星期跟节次但
还没unlist的节次取出，用循环搭配条件判断存成新的list再放回data.frame，但发现
这个方法存成的list只会有最后一个元素有值，其他都是NULL。想请教是哪边有错误，
或是有更好的解决方法，谢谢。
[程式范例]
oldlist = df$节次
newlist = list()
for (i in length(oldlist)) {
if (length(oldlist[[i]]) == 1){
newlist[[i]] = rep(oldlist[[i]][1], 2)
}else if (length(oldlist[[i]]) == 2){
newlist[[i]] = c(oldlist[[i]][1], oldlist[[i]][2])
}else if (length(oldlist[[i]]) == 3){
newlist[[i]] = c(oldlist[[i]][1], olslist[[i]][3])
}
}

楼主: wmj10054039 (MJ) 2018-06-07 20:44:00

我知道哪边写错了感谢～

继续阅读

Re: [问题] 两层for循环问题andrew43 [问题] 筛选含特定文字的资料e181280 Re: [问题] dataframe字串切割celestialgod [问题] dataframe字串切割wmj10054039 [问题] 两层for循环问题AndrewShi [问题] 输出决策树图可以调版面大小吗zcyee [问题] 如何将R Studio Console的自己颜色改回AmigoSafin [问题] for循环问题jasonfghx [问题] 实价登录的位置处理ntpuisbest [问题] 读取excel档案将数值作图zcad