[问题] Crawler问题(Error 403, 500)

楼主: kiwistar (神汁手)   2018-04-27 02:57:49
https://ideone.com/9pNQ0X
照课程指示,写一个简单的爬虫
原本范例使用google finance的网址来示范
但貌似google finance已经变更显示方式了
照原本的方式输入会得到HTTP ERROR 403 forbidden
改用读册书店的商品页,得到
HTTP ERROR 500: internal server error
https://i.imgur.com/UZSSgQ1.jpg
插入try-catch区块:
try:
data = urllib.request.urlopen(url).read()
data1 = data.decode('utf-8')
except HTTPError as e:
content = e.read()
print(content)
把得到的文字复制下来用浏览器检视:
https://i.imgur.com/JpbFiqM.jpg
直接开启网页可以正常检视没问题,但为什么用urllib抓就一堆问题?
试过几个网页
google finance跳 HTTP Error 403
taaze.tw跳HTTP Error 500
最后使用flickr.com才成功抓下图片
但如果正常使用上,三个网站有两个不能用,显然这东西根本不能用
请问我是不是忘了什么?还是可以怎么改进程式码??
感谢大家
作者: perry27 (Corn)   2018-10-02 10:37:00
要红就要有特色 想到盗总就是盗垒 锋哥就是轰砲 建民就是
作者: xyz4594 (ㄈ仔集团小头目)   2018-10-02 10:37:00
持久
作者: kenduest (小州)   2018-04-27 11:06:00
所以你到底是爬哪个 url ?文章只可以看到 http://www.taaze.tw/sig.html但是这个应该不是你要爬的实际 url ??刚刚看一下,有丢 User-Agent: Mozilla 页面应该 ok所以应该是挡了没有送正确 User-Agent: header 的请求
作者: coeric ( )   2018-04-27 11:14:00
原po的网址是怎么一回事?
作者: kenduest (小州)   2018-04-29 05:38:00
User-Agent 送了就可以了。题外话 requests 比较好用

Links booklink

Contact Us: admin [ a t ] ucptt.com