[问题] pandas爬虫被挡下来

楼主: pig98520 (CheinFeng)   2018-02-22 14:30:38
各位版大好,刚接触python爬虫没多久,想要尝试抓取网站表格,
随便找了个股票网站,http://stock.nlog.cc/b/1101
原本是使用bs4来爬,但是后来发现有pandas可以抓取表格,
因此想要尝试使用pandas,
程式码如下:
import pandas
url='http://stock.nlog.cc/b/1101'
pd=pandas.read_html(url)
print(pd)
但是却出现了
ConnectionResetError: [WinError 10054] 远端主机已强制关闭一个现存的连线。
这样的文字,但是我尝试抓别的网站,却都没有问题,
想问一下这是什么状况?是被挡下来了吗?该怎么解决?
先谢谢各位了~
作者: ckc1ark (伪物)   2018-02-22 16:21:00
他会检查是否有传User-Agent的样子
作者: OnePiecePR (OPPR)   2018-02-22 19:39:00
from fake_useragent import UserAgent
楼主: pig98520 (CheinFeng)   2018-02-22 23:33:00
我加上了header仍然会出现同样的问题耶~
作者: WunoW (WunoW)   2018-02-23 01:38:00
我有读到,但产生另一个问题是回传的结果非常非常难看这可能反而是需要花更多时间的地方建议不好用的方法就不要用
作者: Kazimir (Kazimir)   2018-02-23 09:49:00
其实我是建议你先用req拿回来再给pandas读啦这样速度也会提升不少
楼主: pig98520 (CheinFeng)   2018-02-23 19:44:00
好的 谢谢~
作者: a830307119 (天生我材必有用)   2018-03-03 07:11:00
作者: ar54971   2018-03-06 03:39:00

Links booklink

Contact Us: admin [ a t ] ucptt.com