[问题] 当read_csv遇到utf-8-BOM locka PTT批踢踢实业坊

[问题] 当read_csv遇到utf-8-BOM

楼主: locka (locka) 2018-03-21 15:24:59

各位好:
我使用readr::read_csv读取csv档
ex:a <- read_csv("xxx.csv")
按下enter后出现几行字:
Parsed with colum specification:
cols(
`<U+FEFF>id` = col_character(),
...
)
当时没有想太多, 因为View(a)看起来都很正常
接着要把 a 跟其他的 dataFrame merge的时候总是会出现错误:
Error in fix.by(by.x, x) : 'by' must specify a uniquely valid column
用dplyr::left_join()则是会出现:
Error in left_join_impl(x, y, by$x, by$y, suffix$x, suffix$y) :
'id' column not found in rhs, cannot join
怀疑应该是那个`<U+FEFF>id`在作怪
用关键字找到这篇
https://github.com/tidyverse/readr/issues/263
不过看完还是不知道发生了什么事[email protected]@a
不晓得有人可以协助解释吗?
1. UTF-8-BOM 跟 UTF-8 的差别? (之前读csv档从来没注意过有这个问题)
2. R 要怎么正确的读取 UTF-8-BOM 的档案呢?
任何观念的厘清小弟都很欢迎
先谢谢各位了！！！
ps.
最后我是用很笨的方法
a <- a %>% select(id=`<U+FEFF>id`...)
把字段改名后就可以成功merge（但还是想知道大家遇到这问题都怎么处理的）
补充:
用names(a), colnames(a), summary(a)看起来字段都显示正常
不过head(a)会显示以下的东西
# A tibble: 6 × 5
`<U+FEFF>id`
<chr>
......

作者: obarisk (OSWALT) 2018-03-21 18:28:00

不要用read_csv就可以了吧

作者: kimball (我在抗拒什么...) 2018-03-21 21:18:00

BOM 是 windows 在存 utf-8 csv 的时候在开头加入的三个byte……手动修改的话可以用 notepad++ 读入后存成非BOMutf-8 的格式

作者: andrew43 (讨厌有好心推文后删文者) 2018-03-21 23:40:00

因为BOM是没有“外观”的，而你看到的乱码能方便显示这类没有外观但又存在的字符要用R去除BOM也不难，google R read utf-8 BOM资料很多参考看看 https://goo.gl/Q3Sc9g 但我相信read_csv()未来更新后会处理

作者: Wush978 (拒看低质媒体) 2018-03-22 09:57:00

可以先用 readBin 读进来之后丢掉前三个 bytes, 然后用connection 丢给 read.table 处理

继续阅读

[问题] increasing 'x' and 'y' values expectedAndrewShi Re: [问题] 循环转向量或apply,关于股票macd技术指标clansoda [问题] Parse JSON (httr)tus [问题] 循环转向量或apply,关于股票macd技术指标a3236852 [心得] 免费R入门课程，有人会想要吗？paranoia5201 [问题] shiny中的checkboxgroup的选择a3236852 Re: [问题] NLP英文文章处理Darlsa [问题] shiny跑出来的速度很慢a3236852 Re: [问题] 分割data.frame里的文字(像excel资料剖析)clansoda [问题] 分割data.frame里的文字(像excel资料剖析)a3236852