[新闻] 到底是大数据还是拜天公

楼主: mithralin (工口)   2015-08-07 13:59:08
http://bit.ly/1MekBdY
真相总是伤人 - 朱学恒 低阶酸民代表
到底是大数据还是拜天公
选战又要到了,很多关于用大数据预测人们投票模式的说法及报导又跑出来了,听起来很
炫,但真的是这样吗?
先让我们来看看维基百科上关于大数据的定义:
大数据(英语:Big data或Megadata),或称巨量资料、海量资料、大资料,指的是所涉
及的资料量规模巨大到无法透过人工,在合理时间内达到撷取、管理、处理、并整理成为
人类所能解读的资讯。在总资料量相同的情况下,与个别分析独立的小型资料集(data
set)相比,将各个小型资料集合并后进行分析可得出许多额外的资讯和资料关联性,可
用来察觉商业趋势、判定研究品质、避免疾病扩散、打击犯罪或测定即时交通路况等;这
样的用途正是大型资料集盛行的原因。
的确,大数据在很多可以轻易确认的结果(有没有犯罪,有没有消费)逆推之下,是可以
分析出趋势来的。譬如说如果当局愿意公布犯罪时间、犯罪件数、犯罪种类,套上地图位
置,就可以得出所谓的犯罪热点,甚至是分析出对民众来讲何时在机率上比较有可能安全
的在那个区域行走而不会遭遇到危险。
但是,若是要用在模糊的搜寻行为上,目前的大数据的工具就不够先进了。原因很简单,
所谓的搜寻其实只是一种对某某事物感到好奇的行为,但这个好奇所代表的是正面或是负
面,或者代表支持或是反对,除非有人开发出跟人脑一样的分辨软件,否则根本无法判断
。我曾经参加过某个公司的专案(相信现在还是很多公司这样做),他的媒体分析就是把
每天报导的媒体剪报拿下来,一张一张计算,有时加上媒体加权、版面加权,最后用工读
生人眼阅读之后,判别这篇报导整体到底是正面还是负面,替这个报导加上一个正负号,
最后把整个月的数据统计出来加总,就得出一篇报告。
是的,你没看错,是工读生。但即使是工读生,所做的也比当时的电脑,和现在的电脑要
好。因为语意分析就是这么困难:爸爸这么有钱,“好好喔~~~~”、这么努力能够获得大
家照顾,“真是太好了~~~~”。不要说是电脑了,就算是人类,在没有看前后文的状况之
下,你能够只从“”内的文字看出正面或是负面,酸人或是称赞吗?
所以这篇报导显然完全没有搞懂大数据的真正概念(或者是它有别的想法哈哈)“据香港
中评智库大数据中心日前完成的大数据分析,在一定时间里,洪秀柱的媒体声量达54%,
领先蔡英文8个百分点之多。在自媒体(指如BBS、部落客等个人媒体)部分,洪秀柱的网
民提及度达55.6%,比蔡英文高出11.2个百分点。而自媒体中的意见领袖对蔡英文及洪秀
柱的提及度相差较大,洪秀柱的提及率为91.7%,远高于蔡英文的50%。”
也就是这原始文章的引用者(我查过中评智库的原文并不是这样写的)天真的以为美国大
亨川普(Donald Trump)在发表了墨西哥人都是强暴犯小偷之后,引起举国譁然,各意见
领袖争相批评嘲笑讽刺,这是一种媒体声量和自媒体的领先?川普的谋士会跳出来说真是
太好了,这样我们最近领先希拉蕊非常多,远高于她50%?
简单下个结论就是,并非用大数据三个字包装的就是正确,就是领先,数据是中立的,要
怎么扭曲是你家的事,但是拿来对自己加油打气,小心打气过头搞不清楚真正的状况了啊

==
希望大家都能以此共勉,数据要怎么解读是个人的事
不要解读到最后都卖给别人了还帮别人数钞票....
作者: jayfeng (杰奉)   2014-08-07 13:59:00
风向王先嘘
作者: julianscorpi (各打五十大板流 免许皆传)   2015-08-07 14:02:00
单就这篇来说,成衣业者是没说错。
作者: zippy (清净至无余)   2015-08-07 14:16:00
看不懂重点是什么
作者: durg (........)   2015-08-07 16:47:00
重点就是整天自爆出糗,也会增加很多见光度,但是那只会败票
作者: DentistLin (lin_dentist)   2015-08-07 17:49:00
请蔡英文超越绿橘蓝

Links booklink

Contact Us: admin [ a t ] ucptt.com