[问题] 爬虫爬不到资料(BLOOMBERG)

楼主: snakei14702 (sun)   2019-05-03 17:30:17
我写了一小段程式码如下, 分别想抓两个财金网站的资料:
from bs4 import BeautifulSoup
from urllib.request import urlopen
html11=urlopen('https://www.bloomberg.com/quote/INDU:IND')
soup=BeautifulSoup(html11,'html.parser')
print(soup.find_all('div'))
html22=urlopen('https://www.cnbc.com/quotes/?symbol=AAPL&qsearchterm=aapl')
soup=BeautifulSoup(html22,'html.parser')
print(soup.find_all('div'))
htm111 是bloomberg的报价网站,很怪的事我在chrome里面看原始码明明就有很多'div'
的标签, 但是实作跑完只有如下:
[<div id="px-captcha"></div>, <div id="block_uuid">Block reference ID: </div>]
html22是cnbc的报价网站, 就没有这个问题, 稍微过滤一下就找到我要的资料了.
想要向各位前辈请教解决这个小问题....
非常感谢!
作者: tlaceruse   2019-05-03 18:03:00
Bloomberg 很早开始就挡爬虫了。Header request 要多试几个参数

Links booklink

Contact Us: admin [ a t ] ucptt.com