PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] Crawler问题(Error 403, 500)
楼主:
kiwistar
(神汁手)
2018-04-27 02:57:49
https://ideone.com/9pNQ0X
照课程指示,写一个简单的爬虫
原本范例使用google finance的网址来示范
但貌似google finance已经变更显示方式了
照原本的方式输入会得到HTTP ERROR 403 forbidden
改用读册书店的商品页,得到
HTTP ERROR 500: internal server error
https://i.imgur.com/UZSSgQ1.jpg
插入try-catch区块:
try:
data = urllib.request.urlopen(url).read()
data1 = data.decode('utf-8')
except HTTPError as e:
content = e.read()
print(content)
把得到的文字复制下来用浏览器检视:
https://i.imgur.com/JpbFiqM.jpg
直接开启网页可以正常检视没问题,但为什么用urllib抓就一堆问题?
试过几个网页
google finance跳 HTTP Error 403
taaze.tw跳HTTP Error 500
最后使用flickr.com才成功抓下图片
但如果正常使用上,三个网站有两个不能用,显然这东西根本不能用
请问我是不是忘了什么?还是可以怎么改进程式码??
感谢大家
作者:
perry27
(Corn)
2018-10-02 10:37:00
要红就要有特色 想到盗总就是盗垒 锋哥就是轰砲 建民就是
作者:
xyz4594
(ㄈ仔集团小头目)
2018-10-02 10:37:00
持久
作者:
kenduest
(小州)
2018-04-27 11:06:00
所以你到底是爬哪个 url ?文章只可以看到
http://www.taaze.tw/sig.html
但是这个应该不是你要爬的实际 url ??刚刚看一下,有丢 User-Agent: Mozilla 页面应该 ok所以应该是挡了没有送正确 User-Agent: header 的请求
作者:
coeric
( )
2018-04-27 11:14:00
原po的网址是怎么一回事?
作者:
kenduest
(小州)
2018-04-29 05:38:00
User-Agent 送了就可以了。题外话 requests 比较好用
继续阅读
[问题] 爬虫只抓得到标签名,但内容抓不到
bckkt
[问题] Pycharm环境问题
kiwistar
Re: [问题] 用cmd开启chrome浏览器
uranusjr
[问题] 请问spyder有没有diff的功能?
yimean
[问题] pyinstaller安装
GlassesKJ
[问题] 用cmd开启chrome浏览器
znmkhxrw
[问题] 新手问问题 用librosa汇入音讯档错误
ddmanddman
[售书] 已售出 Python for everybody
ethan5566
[问题] 关于open()
kiwistar
[问题] 筛选字段符合特定值条件的各字段筛出来
ademon
Links
booklink
Contact Us: admin [ a t ] ucptt.com