分享给对text mining有兴趣的朋友
以下是我个人架设的 MySQL 平台
目前累积超过 500 万篇 ptt 文章 ( 包含八卦版,总共36GB ),连结如下
http://114.34.138.146/phpmyadmin/
另外以下连结是我的 github ,有对平台做一些介绍,
https://github.com/f496328mm/Crawler_and_Share
github中提供关于 py 连上 MySQL 的范例
1.
py_connect_sql_example.py,可自由取得 SQL 中的 data,该程式中已将格式转为
dataframe ,利于分析。
2.
upload_clean_data.py,可上传 data 的帐号,提供各位进行 data clean 后,
一个上传/分享的管道,这样就不需要每个人都进行 data clean,合作的概念。
程式中提供建立 data file 和上传 data 的范例。
PS : 如需其他 PTT 文章,可以私讯我,我会优先进行爬虫。
PS2: 本人在当兵中,放假不固定,有时间会上 github or ptt 进行回复。