[关键字]: Rfaceook package
[重点摘要]:
各位前辈好,最近在玩Rfacebook这个套件时发现部分抓取到的资料有些不大对劲,在此
把我看到的状况整理出来(可能还未遇到所有状况)让大家参考,若是其实有规则只是我没
有发觉也请大家指教,谢谢: )
目前遇到的主要是照片类型文章,抓取照片类型文章的各种讯息(按赞、回应、分享)主要
是参照Po文文章网址(有加字说明的那个页面),但在按赞人数上的纪录却会有出入,以下
列出几个目前看到的状况,
p.s.有些资料甚至没看到吻合的数字,但可能是爬文日期较早或是曾有编辑纪录的问题因
此先忽略
1.上传照片并新增至xxx相簿:photo post都可以看的到文章内容
ex. 文章ID:136845026417486_814387378663244
photo网址:
https://www.facebook.com/DoctorKoWJ/photos/a.814387368663245.1073741880.136845026417486/814387378663244/?type=3
改成post网址:
https://www.facebook.com/DoctorKoWJ/posts/814387378663244/?type=3
按赞人数:参照post网址/photo网址(全文而非第一张照片)
分享人数:(全文而非第一章照片)
2.新增照片:改成post也看不到文章内容与相关讯息,
无法用下列两个网址中的按赞人数对应到爬到的内容
ex.文章ID:136845026417486_682365098532140
photo网址:
https://www.facebook.com/DoctorKoWJ/photos/a.415511451884174.1073741827.136845026417486/682365098532140/?type=3
改成post网址:
https://www.facebook.com/DoctorKoWJ/posts/682365098532140/?type=3
自己去google到的Po文文章网址:
https://www.facebook.com/DoctorKoWJ/posts/682365261865457
按赞人数:参照Po文文章网址 (全文而非第一张照片)
分享人数:(全文而非第一张照片)
#不一致的状况
3.上传照片并新增至xxx相簿:post网址只显示第一张照片的讯息,
没有内文 (photo网址反而才是全文文章网址)
ex.文章ID:136845026417486_476154822486503
photo网址:
https://www.facebook.com/DoctorKoWJ/photos/a.476104919158160.1073741860.136845026417486/476154822486503/?type=3
改成post网址:
https://www.facebook.com/DoctorKoWJ/posts/476154822486503/?type=3
按赞人数:参照post网址 "而非Po文文章网址" (第一张照片而非全文)
分享人数:(全文而非第一张照片)
##总结##
a. 当专页管理者使用新增相簿功能发文时,Rfacebook套件可能会抓取到照片而非Po文的
按赞资讯。(主观感受:大部分状况会造成大幅低估文章的按赞人数)
b. 当专页管理者使用上传照片(但无新增相簿)功能发文时,Rfacebook套件抓取的连结网
址为第一张照片的连结而非Po文的连结网址,然而抓取的资讯仍以Po文为主。
以下为使用的R-code
require(Rfacebook)
#请自行更改token
fb.oauth=""
#抓取粉丝专页资料
start_date <- "2013/01/01"
end_date <- "2017/05/31"
page.id <- "DoctorKoWJ"
page <- getPage(page.id,token=fb.oauth,n=3000,since=start_date,until=end_date)
#抓取文章资料
post_ID=""
n=100000
post=getPost(post_ID,token=fb.oauth,n,reactions=T)
以上,不好意思第一次在版上发这类的文章,如果叙述不好或格式很丑再麻烦见谅