[问题] 爬新闻html5抓不到内文

楼主: jasonfun44 (kk123)   2022-10-16 06:19:00
想请教版上的专家,有先搜寻资料了,但还是爬不了新闻内文,故想请教
目前想要把新闻内文爬进来
https://reading.udn.com/read/story/122749/6680114
网页程式如下
https://i.imgur.com/eYufIAY.png
目前程式到这一步卡住,一直抓不到内文,故要请教各位专家该怎么调整
,谢谢。
for a in soup.select('div.story-list__news div.story-list__text h2 a '):
list_news.append(a['href'])
print (list_news)
for index, link in enumerate(list_news):
res = req.get(link)
soup_ = bs(res.text, "lxml")
print(soup_.select_one('article.article-content
div.article-content__paragraph section.article-content__editor
div.inline-ads ').get_text())
print("=" * 50)
作者: tzouandy2818 (Naked Bear)   2022-10-16 06:36:00
贴程式码不要用图片 贴图片还贴成相簿 又要再点进去然后你选择器应该打错了 你检查一下
作者: tzouandy2818 (Naked Bear)   2022-10-16 06:36:00
贴程式码不要用图片 贴图片还贴成相簿 又要再点进去然后你选择器应该打错了 你检查一下
作者: tzouandy2818 (Naked Bear)   2022-10-16 06:36:00
贴程式码不要用图片 贴图片还贴成相簿 又要再点进去然后你选择器应该打错了 你检查一下
楼主: jasonfun44 (kk123)   2022-10-16 06:53:00
已修正,抱歉,但我不知道选择器怎么改,我试了好几次
楼主: jasonfun44 (kk123)   2022-10-16 06:53:00
已修正,抱歉,但我不知道选择器怎么改,我试了好几次
楼主: jasonfun44 (kk123)   2022-10-16 06:53:00
已修正,抱歉,但我不知道选择器怎么改,我试了好几次
作者: tzouandy2818 (Naked Bear)   2022-10-16 08:10:00
你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾 留给你自己滤
作者: tzouandy2818 (Naked Bear)   2022-10-16 08:10:00
你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾 留给你自己滤
作者: tzouandy2818 (Naked Bear)   2022-10-16 08:10:00
你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾 留给你自己滤
楼主: jasonfun44 (kk123)   2022-10-16 21:13:00
谢谢!
楼主: jasonfun44 (kk123)   2022-10-16 21:13:00
谢谢!
楼主: jasonfun44 (kk123)   2022-10-16 21:13:00
谢谢!
作者: GQward   2022-10-21 01:06:00
使用html.parser解析器爬下来的html可能会将原本在网页上是 - -的原始码变成!- 造成变注解形式 所以就爬不到内文
作者: GQward   2022-10-21 01:06:00
使用html.parser解析器爬下来的html可能会将原本在网页上是 - -的原始码变成!- 造成变注解形式 所以就爬不到内文
楼主: jasonfun44 (kk123)   2022-10-21 06:58:00
原来如此!!!
楼主: jasonfun44 (kk123)   2022-10-21 06:58:00
原来如此!!!
楼主: jasonfun44 (kk123)   2022-10-21 06:58:00
原来如此!!!
作者: tzouandy2818 (Naked Bear)   2022-10-15 22:36:00
贴程式码不要用图片 贴图片还贴成相簿 又要再点进去然后你选择器应该打错了 你检查一下
楼主: jasonfun44 (kk123)   2022-10-15 22:53:00
已修正,抱歉,但我不知道选择器怎么改,我试了好几次
作者: tzouandy2818 (Naked Bear)   2022-10-16 00:10:00
你先把选择器最后的 div.inline-ads 删掉看看https://pastebin.com/D66hLmK1https://pastebin.com/NeEac4YA最后印出来的结果里面还有一些垃圾 留给你自己滤
楼主: jasonfun44 (kk123)   2022-10-16 13:13:00
谢谢!
作者: GQward   2022-10-20 17:06:00
使用html.parser解析器爬下来的html可能会将原本在网页上是 - -的原始码变成!- 造成变注解形式 所以就爬不到内文
楼主: jasonfun44 (kk123)   2022-10-20 22:58:00
原来如此!!!

Links booklink

Contact Us: admin [ a t ] ucptt.com