我想从网页版的ptt抓取资料 每篇文章的 作者跟发文日
还有文章的网页
import requests
from bs4 import BeautifulSoup
import sys
res_index = requests.get("https://www.ptt.cc/bbs/gamesale/index.html")
soup_index = BeautifulSoup(res_index.text,"html.parser") #抓每篇文章的URL联结
main_container_index = soup_index.select('.r-ent')
for link in main_container_index:
print(link.select('div.author')[0].text, link.select('div.date')[0].text)
print(link.find('a')['href'])
我有疑问的是print(link.find('a')['href'])这行
因为我想要抓网址 但一定要这样写才可以抓到
a href="/bbs/Gamesale/M.1438136421.A.732.html"
这行 不知道大家可以帮我解释一下为什么要这样写吗
=================以下是网页长相
thireh 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438136421.A.732.html">[PC ] 售mycard 点数85折</a>
</div>
DREAMLS 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438137518.A.6A3.html">[PSV ] 售/换 psv2007(青柠白)
+16g记忆卡+六片超值游戏</a>
</div>
CTC0115 7/29
<div class="title">
<a href="/bbs/Gamesale/M.1438137532.A.B0E.html">[PS3 ] 售 VR快打5 </a>
</div>