[问题] beautifulsoup爬虫问题

楼主: snakei14702 (sun)   2020-01-03 05:51:32
小弟写了一段程式码爬虫
不过很怪
这个网站有部分爬得出来
(https://histock.tw/stock/mainprofit.aspx?no=00632R&from=20181102&to=20181102)
有部分爬不出来
像是我要找这个网站的'table'
https://i.imgur.com/eqSE67i.jpg
写了以下程式码确找不到:
import requests
from bs4 import BeautifulSoup
source = requests.get('https://histock.tw/stock/mainprofit.aspx?no=00632R&from
=20181102&to=20181102', verify= False)ꀊ
soup = BeautifulSoup(source.text, ["lxml-xml"])
table = soup.find('table')
print(table)
可是有的tag找的到
我去读soup用肉眼搜寻
里面还真的没有table这个tag
不知道是我用的方法不对还是怎样
麻烦版上强者帮忙解惑了
谢谢!!
作者: TuCH (谬客)   2020-01-03 10:04:00
应该是动态网页
作者: penut85420 (PenutGGorz)   2020-01-03 12:43:00
.aspx网页应该是动态生成网页内容可以试试看用selenium套件去爬内容再套bs4
楼主: snakei14702 (sun)   2020-01-03 15:21:00
谢谢两位我晚上试试感谢
作者: f496328mm (为什么会流泪)   2020-01-04 23:32:00
bs4 会有读不到的问题,我之前也用bs4后来改用 lxml
作者: TakiDog (多奇狗)   2020-01-05 02:53:00
lxml速度快的多,用selenium下下下策,看一下封包用requests吧
作者: poototo (poototo)   2020-01-05 08:21:00
selenium把浏览器视窗及载图关掉

Links booklink

Contact Us: admin [ a t ] ucptt.com