[问题] bs4抓取资料问题

楼主: MOONY135 (谈无欲)   2015-07-29 12:18:26
我想从网页版的ptt抓取资料 每篇文章的 作者跟发文日
还有文章的网页
import requests
from bs4 import BeautifulSoup
import sys
res_index = requests.get("https://www.ptt.cc/bbs/gamesale/index.html")
soup_index = BeautifulSoup(res_index.text,"html.parser") #抓每篇文章的URL联结
main_container_index = soup_index.select('.r-ent')
for link in main_container_index:
print(link.select('div.author')[0].text, link.select('div.date')[0].text)
print(link.find('a')['href'])
我有疑问的是print(link.find('a')['href'])这行
因为我想要抓网址 但一定要这样写才可以抓到
a href="/bbs/Gamesale/M.1438136421.A.732.html"
这行 不知道大家可以帮我解释一下为什么要这样写吗
=================以下是网页长相
thireh 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438136421.A.732.html">[PC ] 售mycard 点数85折</a>
</div>
DREAMLS 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438137518.A.6A3.html">[PSV ] 售/换 psv2007(青柠白)
+16g记忆卡+六片超值游戏</a>
</div>
CTC0115 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438137532.A.B0E.html">[PS3 ] 售 VR快打5 </a>
</div>
作者: s860134 (s860134)   2015-08-01 17:02:00
先了解 html可以依照他的tag (<a></a>,<div></div>这些)可以被解读成一个树状结构,而bs4就是帮你把建树和搜寻整合在一起的一个package。https://goo.gl/lCmf4C 帮你"逐行"解释了 耐心看吧
楼主: MOONY135 (谈无欲)   2015-08-02 21:24:00
感恩

Links booklink

Contact Us: admin [ a t ] ucptt.com