[问题] 半桶水请问一个爬虫post问题

楼主: coeric ( )   2016-12-15 13:34:43
单纯想爬保险公司营业处的资讯
为何传回来的都是空值?
import urllib,urllib2
import re
from time import *
url="https://www.nanshanlife.com.tw/NanshanWeb/branches/query"
request = urllib2.Request(url)
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X
10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106
Safari/537.36")
request.add_header("Referer","https://www.nanshanlife.com.tw/NanshanWeb/branches/74")
form_data = {
"county":'台北市',
"town":'信义区'
}
form_data = urllib.urlencode(form_data)
response = urllib2.urlopen(request,data=form_data)
html=response.read()
print html
作者: orafrank (法兰克 )   2016-12-15 15:03:00
对阿 到底少了什么 ? cookie?
作者: Kagami (かがみ)   2016-12-15 17:59:00
作者: sky800507 (B翰)   2016-12-15 21:51:00
http://pastebin.com/qtLrs2u2抓下来是json格式唷
楼主: coeric ( )   2016-12-15 22:37:00
感谢各位大大.............少了一行"Content-Type"之前在爬全家店舖时,也发生过类似的状况.. 看得到 吃不到少一行Referer.........那是否每次干脆都把Request Headers的讯息都附上去?
作者: shadowjohn (转角遇到爱)   2016-12-16 15:51:00
有的网站就是会龟毛的检查某一页header至少能挡掉一堆不会爬的之前就有网站检查 HTTP_ACCEPT_LANGUAGE你没附抓到三次就ban整天...尽可能完整的伪造成浏览器的格式直接cut curl的内容来改也行
楼主: coeric ( )   2016-12-16 22:23:00
所以 我就是那个被挡在外面的............XDDDD

Links booklink

Contact Us: admin [ a t ] ucptt.com