[问卦] 八卦版资料结构化有没有搞头?

楼主: daviden (daviden)   2018-11-22 03:56:15
最近看到越来越多用八卦版做资料分析的例子。
像先前的异常爆文统计器,或是更早以前的推文时段分析
我就在想,不知道做八卦版资料结构化有没有搞头?
所谓资料结构化,就是把PO文、推文从人类可读的格式
转成机器可读的格式。例如表格。
下面是我用手边现有的程式爬取的资料
https://imgur.com/mYGzaKp.jpg
用网址做ID,纪录文章分类(tag),标题、作者、发文IP、日期、文章内文
程式也顺便统计了推、嘘、箭头的数量。
推文部分,则记录在另一个表格
https://imgur.com/t3IvHlf.jpg
用网址连接到文章(foreign key)。
我现在的想法是,做一个自动化的流程,每天定时更新。
更新的资料自动上传到Dropbox,让有需要的人下载。
目前的困难有:
1. 需要一台固定的电脑/服务器。
这种例行的程式,用我的笔电执行太不稳定了。
家里断网、出门旅行都会影响资料的收集。
我先前是用一个云端服务器(Scrapy cloud),但他们最近开始收费了,一个月9镁。
2. 不知道output哪一种格式,对大家比较方便。
目前是用csv,因为最简单,也可以用excel开启。
但如果要整合长时间的资料,csv就不方便。可能用数据库会比较好。
总之,就是想问问这样做有没有搞头,有没有人想使用?
如果有,我再来想怎么解决上述的问题。
如果没有,嗯...我还是会把程式放在Github,让有需要的人使用。
以上

Links booklink

Contact Us: admin [ a t ] ucptt.com