[问题] Google play 评论所有爬虫(Crawler)

楼主: x9060000456 (你好)   2017-11-23 00:32:12
- 问题:
各位大神前辈大大们好, 问题如下:
Google play '所有'评论抓取疑问,
想爬取如下图之'所有'评论
https://imgur.com/a/zpxnf
[问题叙述]:
Google play 中用户对于 APP 的评论,
Google限制只能抓取前40笔,
参照 stack overflow 的 script后,
却不能如期抓取任何内容.
另外, 发现 Google 找寻其他方法时,
Python的大多解法, 最多可以抓取500评论,
但依循其想法, 在 R 的 script 中,
Request refer 却怪怪的,
故特此恳求版上的大大能指点迷津!
[程式范例]:
library(httr)
library(stringr)
baseUrl <- 'https://play.google.com/store/getreviews?authuser=0'
urls <-
'https://play.google.com/store/apps/details?id=com.gravity.ro.and&hl=zh-TW'
dataJson <- GET(baseUrl, add_headers(Referer = urls, 'accept' = '*/*',
'accept-encoding' = 'gzip, deflate, br',
'accept-language' = 'en-US,en;q=0.9,zh-TW;q=0.8,zh;q=0.7',
'content-type' = 'application/x-www-form-urlencoded;charset=UTF-8',
'user-agent' = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36')) %>%
content %>% as.character
## 发现 https://play.google.com/store/getreviews?authuser=0' 并无此网址
dataJson
[关键字]:
Google play, Crawler, 爬虫
非常感谢各位大大!
作者: sulaxd (SulaXD)   2017-11-26 19:26:00
https://pastebin.com/5cvV8YNt把id换成你要撷取的com.gravity.ro.and就可以
楼主: x9060000456 (你好)   2017-11-28 14:31:00
超感谢S大!!!!!!!!

Links booklink

Contact Us: admin [ a t ] ucptt.com