有需求自然会有人去要求开放
在原文中的学者统计开放文件的特性时
不晓得有无考虑什么样的资料是民众最需要的
如说把民众对资料的需求也分五级
然后去检视柯市府开放的内容是第一级需求居多 还是最末级需求居多
这还比较有意义
就本人不专业的经验
现在一般社会人最有需求的是 地产实价登录
对有置产购屋需求的中产阶级 即便没有 API
至少还有 XML CSV 可以载下来处理
因为这资讯变动没那么快
没有API影响并不大
初步只要做到三星级就促促有余了
做到四五星可以很久之后再做 根本不急
所以结论是这篇报导 一开始便把评价开放资料的量化标准设歪了
然后用错误的前提来推论开放的品质
是废文一篇
※ 引述《liquidbox (树枝摆摆)》之铭言:
: : 1★ 采用开放授权,让手上的资料(任何资料格式)可以在网络上取得
: : 比方说pdf、图片档img等等
: : 机器可读性几乎是零,只能看不能够得到数据档
: : 2★ 让这份资料能以结构化的方式取得(例如用 Excel 取代扫描的表格)
: : 这就是常见的office,机器可以读内容,但需要特定的软件开启
: 结构化更重要是要把资料转成起码是key-value的形式
: 政府很多开放资料虽然近年已在档案格式上都做到三星,
: 但一打开来其实只有一星,因为里面根本只是开放格式版的PDF,
: 例如下载了ODS,结果打开来一堆合并储存格、排版用的spacing、缩排、空列空栏等
: 旧一点的资料里面可能还有从别的软件转档过程中产生的脏东西
: 在真正开始分析资料以前,大概有80%的时间都用在ETL
: 如果是一般公务单位提供的资料是如此就算了
: 即使中央或地方的主计单位,也几乎都是提供这类非结构化资料
: 不是没有官方数据已经做成key-value,
: 但最重要、最完整的,几乎都还是各种假开放格式、真pdf的东西
: 在我看来,政府的开放资料有95%都只有一星
: : 3★ 使用开放格式取代专属格式(例如用 CSV 取代 Excel)
: : 大家看到范例csv,其实刚刚提到的json、xml等等常用格式也是
: : 很多网站或app能够直接吃,就可以显示数据的图表或分布
: : 这样就是三星等