[问题] 半桶水请问一个爬虫post问题 coeric PTT批踢踢实业坊

[问题] 半桶水请问一个爬虫post问题

楼主: coeric ( ) 2016-12-15 13:34:43

单纯想爬保险公司营业处的资讯
为何传回来的都是空值？
import urllib,urllib2
import re
from time import *
url="https://www.nanshanlife.com.tw/NanshanWeb/branches/query"
request = urllib2.Request(url)
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X
10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106
Safari/537.36")
request.add_header("Referer","https://www.nanshanlife.com.tw/NanshanWeb/branches/74")
form_data = {
"county":'台北市',
"town":'信义区'
}
form_data = urllib.urlencode(form_data)
response = urllib2.urlopen(request,data=form_data)
html=response.read()
print html

作者: orafrank (法兰克 ) 2016-12-15 15:03:00

对阿到底少了什么 ? cookie?

作者: Kagami (かがみ) 2016-12-15 17:59:00

https://goo.gl/xqZkVv https://goo.gl/S44yt8

作者: sky800507 (B翰) 2016-12-15 21:51:00

http://pastebin.com/qtLrs2u2抓下来是json格式唷

楼主: coeric ( ) 2016-12-15 22:37:00

感谢各位大大.............少了一行"Content-Type"之前在爬全家店舖时，也发生过类似的状况.. 看得到吃不到少一行Referer.........那是否每次干脆都把Request Headers的讯息都附上去？

作者: shadowjohn (转角遇到爱) 2016-12-16 15:51:00

有的网站就是会龟毛的检查某一页header至少能挡掉一堆不会爬的之前就有网站检查 HTTP_ACCEPT_LANGUAGE你没附抓到三次就ban整天...尽可能完整的伪造成浏览器的格式直接cut curl的内容来改也行

楼主: coeric ( ) 2016-12-16 22:23:00

所以我就是那个被挡在外面的............XDDDD

继续阅读

[问题] 关于聊天 Socket 服务器相互沟通的问题herbacin [问题] socket接收资料时会不完整hardman1110 [讨论] Python Telegram 群组HANASE [问题] python取得htmlaa12twtwaa [讨论] Python Line 群组Lucy0 [问题]Python新手问题-DataFrameforeverex [问题] 想请问更换ip的问题a20913126 [问题] django 免费云端主机？frank910138 [问题] python 编码问题soul810707 [问题]执行.py 时指定不同的config.ini档cerebellum