[问题] 新手爬虫post cookie问题

楼主: wheado (principal component QQ)   2016-03-21 15:10:10
问题是这样子,前阵子套件httr似乎有经过一些改变,
似乎采用了比较新的套件xml2里面的函数,
因此,再爬取PTT八卦版文章出现了错误,
无法再使用httr的指令set_cookie("over18"="1")
搭配xpathSApply来抓取八卦板index跟里面的文章内容。
所以想从RCurl套件中做一个Post的动作,
从网络上看高手用Python可以很轻松的就解决,
可是自己GOOGLE却找不到用R解决的办法QQ
不懂cookie这种东西是如何运作?
要如何用R让他运作?
一些关键字: RCurl cookiefile cookiejar postForm
作者: celestialgod (天)   2016-03-21 15:30:00
我用GET + set_cookie一样可以抓阿@@x是GET下来的物件,要文字就用content(x, "text")配xml2的话就用下面的指令xml_find_all(content(x),"//div[@id='main-content']")再%>% xml_text就可以抓整篇文章下来了windows再搭配stri_conv转成big5#1MwjtX4d (R_Language)如果是要用XML就把content(x, "text")丢到htmlParse
楼主: wheado (principal component QQ)   2016-03-21 16:11:00
太神啦 我等等来试试看!! 谢谢大大我弄这个弄到好几天都睡不好 QQ

Links booklink

Contact Us: admin [ a t ] ucptt.com