PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] 抓取留言
楼主:
s1021412107
(阿宗)
2018-08-27 13:33:54
请问各位大大
小弟刚学爬虫
想要抓取ptt里的留言
但是我看网络只能抓留言的内容
推文、ID名称、内容、时间怎么同时抓下来
想要直接分类好推文还是嘘文
Code如下:
import requests
from bs4 import BeautifulSoup
#所要撷取的网站网址
url = 'https://www.ptt.cc/bbs/movie/M.1535264750.A.3E3.html'
#建立回应
response = requests.get(url)
#印出网站原始码
#print(response.text)
#将原始码做整理
soup = BeautifulSoup(response.text, 'lxml')
#使用find_all()找寻特定目标
articles = soup.find_all('div', 'push')
#写入档案中
with open('movie_message.txt','w') as f:
for article in articles:
#去除掉冒号和左右的空白
messages = article.find('span','f3 push-content').getText().replace(':
','').strip()
print(messages)
f.write(messages + "\n")
https://i.imgur.com/dcD1cdz.jpg
https://i.imgur.com/qOreC31.jpg
https://i.imgur.com/cv3ixcj.jpg
作者:
InfinityGate
(小鸟)
2018-08-27 16:38:00
把div.push里面的span都抓下来啊爬虫先摸熟chrome dev tools和html结构
作者:
qxpbyd
(qxpbyd)
2018-08-27 20:01:00
https://github.com/Truth0906/PTTLibrary
PTTLibrary里的PTT.py 第1291行__getPost有别人写好的API 可以参考
作者:
CodingMan
(程式侠)
2018-08-28 00:37:00
推资料结构可以看 Test.py 有比较清楚的范例
作者:
b24333666
(比飞笨)
2018-09-05 12:18:00
https://goo.gl/vV8QgY
我自己写的应该会符合需求给你参考
继续阅读
[问题] 新增field到paradox database file
DK1225
[问题] 用Python 执行更新系统时间
fxsh1301
[问题] 爬虫网页后,想保留特定列资料[已解决]
wii8898333
[问题] pandas multiindex 取最后一笔
PTTleader
[问题] django html数据
kennysuper4
[问题] 请问list调整顺序问题
CCT63
[问题] 学习create_trisurf 请教是否要这功能
jasonfghx
[问题] numpy broadcasting 矩阵特定位置运算
NMOSFET
[问题] leetcode上看到的问题和解法不是很懂..
ponwar87123
[问题] 宣告出问题
s1021412107
Links
booklink
Contact Us: admin [ a t ] ucptt.com