[问题] 新手请教爬虫

楼主: lovex (L O V E X)   2020-09-01 17:26:32
新手学习爬虫中~
请问如以下的学校公告栏
http://www.cshs.kh.edu.tw/post/book.asp
soup = BeautifulSoup(html, 'html.parser')
for link in soup.find_all(href=re.compile("view")):
print(link.get('href'))
这样可以抓到内文实际的连结,但不知如何抓细节
主要想抓整个table把新的资料写入sql db, 不知道怎么抓好呢?
(因为它的table都没有id 或 class之类的~)
(新增资料
作者: panex0845 (胖克思)   2020-09-01 19:44:00
整个表格也没几行 把网页抓下来做字串分析就行了
作者: chickengod (鸡大侠)   2020-09-01 20:11:00
有 table 的话 用 soup 抓出 table 喂给 pandas不过这网页有 RSS 的话 直接用 feedparser就不需要自己处理网页

Links booklink

Contact Us: admin [ a t ] ucptt.com