Re: [问题] readxl小问题

楼主: Edster (Edster)   2016-06-23 18:06:31
我也来问问,
readxl::read_excel 读入日期/时间的精准度的问题
偶而还是会遇到读取Excel的情形
在Windows下,读MS Excel创造出来的 YYYY-mm-dd HH:MM:SS 这种格式
例:读取内容
2009-01-03 07:00:00
col_type
1. date: 2009-01-03 06:59:59
2. text: 39997.291666666664
3. numeric: 39997.29
用text属性差距很少, 但也不是7点整, 因为7/24不能整除.
7/24 = 0.291666666667
(0.291666666664)*24 = 6.999999999936
不知是微软的问题还是谁的问题.
(Excel好像存到小数点十位(且是用截断的方式), 但用readxl读进来却是12位)
因为我处理的资料都是整点, 也就偷懒这样处理了.
这支function还有别的用途, 才写成这样. 在这边功能是一样的就直接贴上来了.
TS是 POSIX 格式: redaxl::read_excel(file, col_type="date")
TS2Oclock <- function (TS) {
MM = as.numeric(format(TS, "%M"))/60; MM[MM>=0.5] <- 1; MM[MM<0.5] <- 0
HH = as.numeric(format(TS, "%H")) + MM
TS = as.POSIXct(paste(format(TS, "%Y-%m-%d")," ", HH, ":00",sep=""))
}
TS2Oclock(as.POSIXct(2009-01-03 06:59:59))
各位用哪支function去重新处理?
我知道用 csv 且用ISOdatetime格式储存就没有这种问题, 但总会遇到excel
※ 引述《clansoda (小笨)》之铭言:
: 各位好,我有个xls档案,他是用general格式去储存时间格式
: 所以外部显示会长得像2016/06/21 11:39:25 AM 这样
: 但其实里面是用电脑化的纪录时间会变成42535.49413
: 这个应该是以1990-01-01为止到现在的天数 所以是
: 42535.49413天从那天算起,我用readxl的read_excel读入
: 但是他的function在读入的时候只会读入两个小数点
: 因此会变成42535.49天,接着我用openxlsx的convertDateTime
: 将这个数字转换成我们和R看得懂的格式,结果虽然前面都一样
: 但是差三位小数导致真实的时间差了五分钟,如果我想将这个数字导正
: 请问除了直接在excel加工之外还有其他的方法吗,openxlsx的read.xlsx
: 我已经试过了,但是他一直显示乱码,我不确定是不是中文太多导致
: 他没有可以encoding的选项,而xlsx的read.xlsx是太慢无法使用
: 如果要人工去调整excel会很辛苦,因为数量不小
: 不知道有没有人知道如何解决这个问题呢?
作者: clansoda (小笨)   2016-06-23 19:22:00
所以是差一秒吗? 我的也会 就是读近来会差一秒
楼主: Edster (Edster)   2016-06-23 19:36:00
差约5微秒. 资料先处理成 YYYY mm dd HH MM SS 六个字段好像是Excel储存时间最没问题的方式.我自己平常是直接存成YYYYmmddHH 这样存成一栏.读进来后再自己切. 用 strptime
作者: clansoda (小笨)   2016-06-23 19:59:00
疴 看不太懂 我自己是只存一栏 他是以EXCEL 1990年为起点,再用openxlsx 为converttoDatetime 这个function我好像取到第六位会差一秒,明天可以试试取到第十位但是因为我这个资料对时间没有敏感到秒这么夸张,差一秒我可能就让他去了吧
楼主: Edster (Edster)   2016-06-23 20:04:00
因为我是用时间做ID把两组资料拼在一起. 才会这么在意如果你只有一个excel档案的话, 存成 YYYYmmddHH 之类的中间没有 / : 跟空格. 之类的东西, 就是一串10码数字.

Links booklink

Contact Us: admin [ a t ] ucptt.com