[问题] 爬虫爬不到资料(BLOOMBERG) snakei14702 PTT批踢踢实业坊

[问题] 爬虫爬不到资料(BLOOMBERG)

楼主: snakei14702 (sun) 2019-05-03 17:30:17

我写了一小段程式码如下, 分别想抓两个财金网站的资料:
from bs4 import BeautifulSoup
from urllib.request import urlopen
html11=urlopen('https://www.bloomberg.com/quote/INDU:IND')
soup=BeautifulSoup(html11,'html.parser')
print(soup.find_all('div'))
html22=urlopen('https://www.cnbc.com/quotes/?symbol=AAPL&qsearchterm=aapl')
soup=BeautifulSoup(html22,'html.parser')
print(soup.find_all('div'))
htm111 是bloomberg的报价网站，很怪的事我在chrome里面看原始码明明就有很多'div'
的标签, 但是实作跑完只有如下:
[<div id="px-captcha"></div>, <div id="block_uuid">Block reference ID: </div>]
html22是cnbc的报价网站, 就没有这个问题, 稍微过滤一下就找到我要的资料了.
想要向各位前辈请教解决这个小问题....
非常感谢!

作者: tlaceruse 2019-05-03 18:03:00

Bloomberg 很早开始就挡爬虫了。Header request 要多试几个参数

继续阅读

[问题] leetcode 中 listnode定义hsiaoeddie [问题] 如何判断小数和整数位数j30916 Re: [问题] for + if 优化问题azuel [问题] 可以用循环呼叫function吗？phoenixcx [问题] replace后资料直接写入lattes [教学] 用基因遗传算法解旅行推销员问题b05703 [问题] plot结果与资料有异disney82231 [问题] Python语法问题请益james999 [问题] Pandas新手疑问a172545056 Re: [问题] 如何读取特定格式档案windless99