[问题] Crawler问题(Error 403, 500) kiwistar PTT批踢踢实业坊

[问题] Crawler问题(Error 403, 500)

楼主: kiwistar (神汁手) 2018-04-27 02:57:49

https://ideone.com/9pNQ0X
照课程指示，写一个简单的爬虫
原本范例使用google finance的网址来示范
但貌似google finance已经变更显示方式了
照原本的方式输入会得到HTTP ERROR 403 forbidden
改用读册书店的商品页，得到
HTTP ERROR 500: internal server error
https://i.imgur.com/UZSSgQ1.jpg
插入try-catch区块：
try:
data = urllib.request.urlopen(url).read()
data1 = data.decode('utf-8')
except HTTPError as e:
content = e.read()
print(content)
把得到的文字复制下来用浏览器检视：
https://i.imgur.com/JpbFiqM.jpg
直接开启网页可以正常检视没问题，但为什么用urllib抓就一堆问题？
试过几个网页
google finance跳 HTTP Error 403
taaze.tw跳HTTP Error 500
最后使用flickr.com才成功抓下图片
但如果正常使用上，三个网站有两个不能用，显然这东西根本不能用
请问我是不是忘了什么？还是可以怎么改进程式码？？
感谢大家

作者: perry27 (Corn) 2018-10-02 10:37:00

要红就要有特色想到盗总就是盗垒锋哥就是轰砲建民就是

作者: xyz4594 (ㄈ仔集团小头目) 2018-10-02 10:37:00

持久

作者: kenduest (小州) 2018-04-27 11:06:00

所以你到底是爬哪个 url ?文章只可以看到 http://www.taaze.tw/sig.html但是这个应该不是你要爬的实际 url ??刚刚看一下，有丢 User-Agent: Mozilla 页面应该 ok所以应该是挡了没有送正确 User-Agent: header 的请求

作者: coeric ( ) 2018-04-27 11:14:00

原po的网址是怎么一回事？

作者: kenduest (小州) 2018-04-29 05:38:00

User-Agent 送了就可以了。题外话 requests 比较好用

继续阅读

[问题] 爬虫只抓得到标签名，但内容抓不到bckkt [问题] Pycharm环境问题kiwistar Re: [问题] 用cmd开启chrome浏览器uranusjr [问题] 请问spyder有没有diff的功能？yimean [问题] pyinstaller安装GlassesKJ [问题] 用cmd开启chrome浏览器znmkhxrw [问题] 新手问问题用librosa汇入音讯档错误ddmanddman [售书] 已售出 Python for everybodyethan5566 [问题] 关于open()kiwistar [问题] 筛选字段符合特定值条件的各字段筛出来ademon