[讨论] 分享个人爬虫资料 ( PTT文章 )

楼主: f496328mm (为什么会流泪)   2017-11-04 21:40:44
分享给对text mining有兴趣的朋友
以下是我个人架设的 MySQL 平台
目前累积超过 500 万篇 ptt 文章 ( 包含八卦版,总共36GB ),连结如下
http://114.34.138.146/phpmyadmin/
另外以下连结是我的 github ,有对平台做一些介绍,
https://github.com/f496328mm/Crawler_and_Share
github中提供关于 py 连上 MySQL 的范例
1.
py_connect_sql_example.py,可自由取得 SQL 中的 data,该程式中已将格式转为
dataframe ,利于分析。
2.
upload_clean_data.py,可上传 data 的帐号,提供各位进行 data clean 后,
一个上传/分享的管道,这样就不需要每个人都进行 data clean,合作的概念。
程式中提供建立 data file 和上传 data 的范例。
PS : 如需其他 PTT 文章,可以私讯我,我会优先进行爬虫。
PS2: 本人在当兵中,放假不固定,有时间会上 github or ptt 进行回复。
作者: janice001 (真理)   2017-11-04 21:42:00
作者: shuwei12 (dooocker)   2017-11-05 01:32:00
推 我也是用python写 还有搭配mail会通知为了抓股版的抄底王XD
作者: goldflower (金色小黄花)   2017-11-05 01:41:00
话说我每次都在想 不想被放在ptt以外的人可以告吗XD
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2017-11-05 08:41:00
楼上是想说智财的重制跟散布?
作者: vi000246 (Vi)   2017-11-05 11:14:00
站方本身是不允许这种备份行为的.. 只是抓不到
作者: alan23273850   2017-11-05 20:47:00
如果不允许,那么fb的出卖表特又该如何解释呢?
作者: vi000246 (Vi)   2017-11-06 12:29:00
违反站规的事情你做了没被抓不代表站方默许可以去看看PttAntiBot这个看板如果是单个爬虫就算了 做了分布式爬虫算是DDOS了要用法律治你也是可以的
楼主: f496328mm (为什么会流泪)   2017-11-06 20:05:00
楼上其实说的没错,爬虫有点游走在法律边缘,甚至有些网站会挡,程式浏览网页跟人的行为非常不同,不难抓/挡
作者: bluecadence (Maxwell's demon)   2017-11-07 15:21:00
除非要玩文字探勘不然架这个用途想不太出要做什么,不如架一个股票股价相关资讯的数据库应该会大受欢迎(纯属个人偏见)不过受欢迎后吃掉的频宽/资源就很可观了 :p
楼主: f496328mm (为什么会流泪)   2017-11-07 20:18:00
我的目的就是text mining、nlp
作者: chan15 (ChaN)   2017-11-13 12:11:00
你中文都没遇到问题吗,我常遇到 cp950,即便对方编码是 utf8
楼主: f496328mm (为什么会流泪)   2017-11-13 19:40:00
chan,我目前都没遇到过,爬新闻、杂志等等都没遇到

Links booklink

Contact Us: admin [ a t ] ucptt.com