楼主:
liquidbox (æ¨¹æžæ“ºæ“º)
2017-12-30 17:45:35: 1★ 采用开放授权,让手上的资料(任何资料格式)可以在网络上取得
: 比方说pdf、图片档img等等
: 机器可读性几乎是零,只能看不能够得到数据档
: 2★ 让这份资料能以结构化的方式取得(例如用 Excel 取代扫描的表格)
: 这就是常见的office,机器可以读内容,但需要特定的软件开启
结构化更重要是要把资料转成起码是key-value的形式
政府很多开放资料虽然近年已在档案格式上都做到三星,
但一打开来其实只有一星,因为里面根本只是开放格式版的PDF,
例如下载了ODS,结果打开来一堆合并储存格、排版用的spacing、缩排、空列空栏等
旧一点的资料里面可能还有从别的软件转档过程中产生的脏东西
在真正开始分析资料以前,大概有80%的时间都用在ETL
如果是一般公务单位提供的资料是如此就算了
即使中央或地方的主计单位,也几乎都是提供这类非结构化资料
不是没有官方数据已经做成key-value,
但最重要、最完整的,几乎都还是各种假开放格式、真pdf的东西
在我看来,政府的开放资料有95%都只有一星
: 3★ 使用开放格式取代专属格式(例如用 CSV 取代 Excel)
: 大家看到范例csv,其实刚刚提到的json、xml等等常用格式也是
: 很多网站或app能够直接吃,就可以显示数据的图表或分布
: 这样就是三星等