[问题] 爬新闻html5抓不到内文 jasonfun44 PTT批踢踢实业坊

[问题] 爬新闻html5抓不到内文

楼主: jasonfun44 (kk123) 2022-10-16 06:19:00

想请教版上的专家，有先搜寻资料了，但还是爬不了新闻内文，故想请教
目前想要把新闻内文爬进来
https://reading.udn.com/read/story/122749/6680114
网页程式如下
https://i.imgur.com/eYufIAY.png
目前程式到这一步卡住，一直抓不到内文，故要请教各位专家该怎么调整
，谢谢。
for a in soup.select('div.story-list__news div.story-list__text h2 a '):
list_news.append(a['href'])
print (list_news)
for index, link in enumerate(list_news):
res = req.get(link)
soup_ = bs(res.text, "lxml")
print(soup_.select_one('article.article-content
div.article-content__paragraph section.article-content__editor
div.inline-ads ').get_text())
print("=" * 50)

作者: tzouandy2818 (Naked Bear) 2022-10-16 06:36:00

贴程式码不要用图片贴图片还贴成相簿又要再点进去然后你选择器应该打错了你检查一下

作者: tzouandy2818 (Naked Bear) 2022-10-16 06:36:00

贴程式码不要用图片贴图片还贴成相簿又要再点进去然后你选择器应该打错了你检查一下

作者: tzouandy2818 (Naked Bear) 2022-10-16 06:36:00

贴程式码不要用图片贴图片还贴成相簿又要再点进去然后你选择器应该打错了你检查一下

楼主: jasonfun44 (kk123) 2022-10-16 06:53:00

已修正，抱歉，但我不知道选择器怎么改，我试了好几次

楼主: jasonfun44 (kk123) 2022-10-16 06:53:00

已修正，抱歉，但我不知道选择器怎么改，我试了好几次

楼主: jasonfun44 (kk123) 2022-10-16 06:53:00

已修正，抱歉，但我不知道选择器怎么改，我试了好几次

作者: tzouandy2818 (Naked Bear) 2022-10-16 08:10:00

你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾留给你自己滤

作者: tzouandy2818 (Naked Bear) 2022-10-16 08:10:00

你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾留给你自己滤

作者: tzouandy2818 (Naked Bear) 2022-10-16 08:10:00

你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾留给你自己滤

楼主: jasonfun44 (kk123) 2022-10-16 21:13:00

谢谢！

楼主: jasonfun44 (kk123) 2022-10-16 21:13:00

谢谢！

楼主: jasonfun44 (kk123) 2022-10-16 21:13:00

谢谢！

作者: GQward 2022-10-21 01:06:00

使用html.parser解析器爬下来的html可能会将原本在网页上是 - -的原始码变成!- 造成变注解形式所以就爬不到内文

作者: GQward 2022-10-21 01:06:00

使用html.parser解析器爬下来的html可能会将原本在网页上是 - -的原始码变成!- 造成变注解形式所以就爬不到内文

楼主: jasonfun44 (kk123) 2022-10-21 06:58:00

原来如此！！！

楼主: jasonfun44 (kk123) 2022-10-21 06:58:00

原来如此！！！

楼主: jasonfun44 (kk123) 2022-10-21 06:58:00

原来如此！！！

作者: tzouandy2818 (Naked Bear) 2022-10-15 22:36:00

贴程式码不要用图片贴图片还贴成相簿又要再点进去然后你选择器应该打错了你检查一下

楼主: jasonfun44 (kk123) 2022-10-15 22:53:00

已修正，抱歉，但我不知道选择器怎么改，我试了好几次

作者: tzouandy2818 (Naked Bear) 2022-10-16 00:10:00

你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1 https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾留给你自己滤

楼主: jasonfun44 (kk123) 2022-10-16 13:13:00

谢谢！

作者: GQward 2022-10-20 17:06:00

使用html.parser解析器爬下来的html可能会将原本在网页上是 - -的原始码变成!- 造成变注解形式所以就爬不到内文

楼主: jasonfun44 (kk123) 2022-10-20 22:58:00

原来如此！！！

继续阅读

[问题] 搜寻URL如何让字串空格转%20RicohG8 [教学] vscode 执行ai PULSE 环境建置LLSGG [问题] 图表显示 (x,y) 方式WTSAO [问题] 直接拖曳进QT视窗?note100 [问题] Flask LTS 的版本应该要怎么看？yimean [问题] 下载台股上柜每日收盘碰到mac greek codePettitte1 [问题] Pyarmor加密可靠吗?gostjoke [问题] 新手爬虫（被挡的问题）etudiant [问题] 月经文请教denchang [问题] 集保户股权分散表无法爬取toyboy