[问题] 卷商资料爬虫

楼主: unknown (ya)   2022-07-25 11:05:15
爬虫网址:
https://fubon-ebrokerdj.fbs.com.tw/z/zg/zgb/zgb0.djhtm?a=1160&b=1163&c=E&d=1
使用下面语法爬虫 (语法自己摸索可能写的不是很好,也可以指正)
def get_NBA(url):
r = requests.get(url=url)
r.encoding = 'big5'
if r.status_code == requests.codes.ok:
soup = BeautifulSoup(r.text, 'html.parser')
for tr in soup.find_all('tr'):
for td in tr.findAll('td'):
text = '#'+td.getText()
file.write(text)
file.write('#EENNDD\n')
#file.write('\n')
结果遇到他在主要股号股名那边我就抓不到了
<tr>
<td class="t4t1" nowrap id="oAddCheckbox">
<SCRIPT LANGUAGE=javascript>
<!
作者: niceguy (niceguy)   2022-07-25 11:34:00
这三行被注解掉了,只能用re了吧?
作者: sleepeye (sl? ? )   2022-07-25 15:51:00
可否多加指导一下
作者: razer (还是一个人)   2022-07-25 17:20:00
regular expression,PTT有版
作者: lycantrope (阿宽)   2022-07-25 17:25:00
可以用findall("script")抓吧?还是都复制贴上没在想
作者: razer (还是一个人)   2022-07-26 09:26:00
findall 就已经是re的函式了,他应该真的没用过re

Links booklink

Contact Us: admin [ a t ] ucptt.com