分享给对text mining有兴趣的朋友
以下是我个人架设的 MySQL 平台
目前累积超过 500 万篇 ptt 文章 ( 包含八卦版,总共36GB ),连结如下
http://114.34.138.146/phpmyadmin/
另外以下连结是我的 github ,有对平台做一些介绍,
https://github.com/f496328mm/Crawler_and_Share
github中提供关于 py 连上 MySQL 的范例
1.
py_connect_sql_example.py,可自由取得 SQL 中的 data,该程式中已将格式转为
dataframe ,利于分析。
2.
upload_clean_data.py,可上传 data 的帐号,提供各位进行 data clean 后,
一个上传/分享的管道,这样就不需要每个人都进行 data clean,合作的概念。
程式中提供建立 data file 和上传 data 的范例。
PS : 如需其他 PTT 文章,可以私讯我,我会优先进行爬虫。
PS2: 本人在当兵中,放假不固定,有时间会上 github or ptt 进行回复。
作者:
shuwei12 (dooocker)
2017-11-05 01:32:00推 我也是用python写 还有搭配mail会通知为了抓股版的抄底王XD
话说我每次都在想 不想被放在ptt以外的人可以告吗XD
作者:
Sunal (SSSSSSSSSSSSSSSSSSSSSSS)
2017-11-05 08:41:00楼上是想说智财的重制跟散布?
违反站规的事情你做了没被抓不代表站方默许可以去看看PttAntiBot这个看板如果是单个爬虫就算了 做了分布式爬虫算是DDOS了要用法律治你也是可以的
楼上其实说的没错,爬虫有点游走在法律边缘,甚至有些网站会挡,程式浏览网页跟人的行为非常不同,不难抓/挡
除非要玩文字探勘不然架这个用途想不太出要做什么,不如架一个股票股价相关资讯的数据库应该会大受欢迎(纯属个人偏见)不过受欢迎后吃掉的频宽/资源就很可观了 :p
作者:
chan15 (ChaN)
2017-11-13 12:11:00你中文都没遇到问题吗,我常遇到 cp950,即便对方编码是 utf8
chan,我目前都没遇到过,爬新闻、杂志等等都没遇到