PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
R_Language
[问题] 新手爬虫post cookie问题
楼主:
wheado
(principal component QQ)
2016-03-21 15:10:10
问题是这样子,前阵子套件httr似乎有经过一些改变,
似乎采用了比较新的套件xml2里面的函数,
因此,再爬取PTT八卦版文章出现了错误,
无法再使用httr的指令set_cookie("over18"="1")
搭配xpathSApply来抓取八卦板index跟里面的文章内容。
所以想从RCurl套件中做一个Post的动作,
从网络上看高手用Python可以很轻松的就解决,
可是自己GOOGLE却找不到用R解决的办法QQ
不懂cookie这种东西是如何运作?
要如何用R让他运作?
一些关键字: RCurl cookiefile cookiejar postForm
作者:
celestialgod
(天)
2016-03-21 15:30:00
我用GET + set_cookie一样可以抓阿@@x是GET下来的物件,要文字就用content(x, "text")配xml2的话就用下面的指令xml_find_all(content(x),"//div[@id='main-content']")再%>% xml_text就可以抓整篇文章下来了windows再搭配stri_conv转成big5
#1MwjtX4d (R_Language)
如果是要用XML就把content(x, "text")丢到htmlParse
楼主:
wheado
(principal component QQ)
2016-03-21 16:11:00
太神啦 我等等来试试看!! 谢谢大大我弄这个弄到好几天都睡不好 QQ
继续阅读
[问题] 如何看到它是怎么分群的?
jackhzt
Re: [问题] 如何将资料分类
celestialgod
[问题] 中文字串不正常显示(非乱码)
hakiooi
[问题] 爬主计处资料的packages
bcs
[问题] 如何将资料分类
SleepyChink
[问题] data frame转corpus前过滤非英文字词
blackyu
[问题] facebook data
clansoda
Re: [问题] 去除重复值
celestialgod
[问题] 去除重复值
tHEiPHoNe
Re: [问题] parSapply问题
celestialgod
Links
booklink
Contact Us: admin [ a t ] ucptt.com