【书名】:数据、谎言与真相
【作者】:赛斯‧史蒂芬斯—大卫德维兹
【译者】:陈琇玲
【出版】:商周出版
—————————————————————
四张内页图表,排版优化原文
Matters|https://tinyurl.com/y4pzy2hv
.
.
“人们搜寻资讯,这种行为本身就是资讯”
“人们会把自己可能不会告诉任何人的事情,告诉这个大型搜寻引擎。”
是的,《数据、谎言与真相》即将为读者揭示“大数据”的各种议题,包括如何运作,以
及产生什么重大发现,也谈到其所受的限制——资料多数源自 Google 这座宝山。
.
.
■ 何谓数据科学?大数据?
.
其实,我们一直都透过大脑里的大型关系数据库,做各种分析、判断:发现模式,预测一
个变量如何影响另一个变量,这就是数据科学。
良好数据科学的方法论通常是直观的,但结果往往违反直觉,原来这世界的运作跟我们所
想像的截然不同。而透过大数据,让我们挖掘更多、发现更多、理解更多。
作者在一开始就言明,不会对大数据做出一个精准定义。究竟多大才算大?这是一个笼统
的概念,他宁可对大数据的特性采用涵盖性更广的看法(有四,稍后详谈)。
通读本书,就我个人的体悟,大数据中的“大”是一种相对性,取决于研究者提问的。若
只是杀鸡一般的问题,小样本抽样就够“大”了,根本不用祭出牛刀;提出正确的问题、
采用正确的资料,才是最攸关的,未必总是需要大量数据。
现在,让我们一起来看看大数据的四种独特力量(特性)。
.
.
■ 1. 提供新颖的资讯
.
重新想像什么东西有资格当成数据,通常大数据的价值不在于本身的大小,而在于提供新
类型的数据,也就是以往从未蒐集过的资讯。
▍跟蒐集更多数据无关,而跟蒐集正确(更好的)数据有关。
若你有看过《魔球》,相信不难理解非传统新数据的超大价值。书中举另一个异曲同工的
例子:成为赛马明星的关键是什么?传统赛马经纪人通常从一匹马的血统和步态着手,然
这位取得许多哈佛大学学位,后成立 EBQ 公司的马匹狂热份子杰夫.塞德(Jeff Seder)
并不这么想,他打算评量赛马的各种属性,并看看哪些属性跟赛马场上的表现有关。
赛德测量过马匹的鼻孔大小、快缩肌体积,甚至连排泄物重量也不放过,多年来只是徒劳
无功。后来总算是走运了,他决定测量马的内脏大小,成效斐然。他发现心脏大小,尤其
是左心室的大小,就是能否成为赛马明星的关键预测因素。为此,成功帮客户揪出“美国
法老”这匹 30 年来首屈一指的三冠王。
拜数位化之赐,“什么可以当成数据使用”有着更多可能性,像是书籍中的字词、约会中
的交谈声、毕业纪念册中的照片 一切都是数据!
.
.
■ 2. 提供诚实的数据
.
先是以“社会期许偏误”(social desirability bias )破题, 点出许多人在问卷调查
问及令自己困窘的行为和想法时,都会说谎的现象。即使是匿名的网络问卷,人们还是希
望保持自己的良好形象。
然某些线上来源,像是你搜寻什么?浏览什么?这类数位足迹的作用就像诚实豆沙包,吐
露了人们真正的看法、感受和欲望。这是大数据的第二种力量,因为你有“以为没人知道
”诱因,就更愿意说出真相。
▍不要相信人们告诉你什么,要相信他们做了什么。
人们可能声称自己很愤怒,对一些“垃圾新闻”加以谴责,但是人们还是会点击。
题外话,关于这种“说一套做一套”的落差,刚好是我最近读的另一本书《盲点》深入探
讨的主题;一方面我们很不擅长预测未来的自己,或是说在预测时和执行时的动机往往不
一样,再加上“道德褪色”的推波助澜,终焉导致这种“言行不一”的矛盾。
.
.
■ 3. 把焦点放在人口中的小子集
.
大数据就像 RAW 档。
当观察数“够大”时,就允许我们有意义地放大检视数据集的细部。犹如为了将照片的一
小部分放大后还能清楚查看,照片需要有很高的画素,这是大数据的第三种威力。
看到这边特有别感。在台湾,平常我们在新闻上看到的各种电访民调,样本数抓 1000 至
2000 人差不多就紧绷,若要考虑各年龄层的分布,多半采用“每十岁(年)”作为级距
。
而下列这个棒球研究的例子,却是用“每一年(岁)”进行切割。要做到这样,需要有数
百万次观察,唯有大数据才能提供支持。
“把资料切成这么细,是要做啥?”
大数据允许我们使用与问卷调查截然不同的设计,提出崭新的问题。观察中发现在 1962
年和 1978 年出生的这群人中,大都会队非常受欢迎,那段时间究竟发生什么事?原来,
大都会队分别于 1969 年和 1986 年赢得两次世界大赛。于是引出了一项重要指标的检视
:
▍让男性从小到大死忠支持某支棒球队的最关键年纪,大概就发生在八岁那段时期。
这是“小数据”做不到的格局。
.
.
■ 4. 进行许多因果关系的实验
.
在数位世界里,要进行“随机对照实验”变得容易进行,整个世界就是一间实验室。
随机对照实验,或称之为“A/B测试”,就是随机将人分成两组,一个是要做某件事的实
验组,另一个是什么也不必做的对照组。然后观察每一组的回应,两组在结果之间的差异
性就是取得的因果关系。
在离线环境,像是最近吵得沸沸扬扬的疫苗第三期临床试验,动辄需要上万人的实验人数
,得投入大量资源;但在线上,就是几行程式码的事情,既省钱又省时。
Google 和脸书每天都进行大量的 A/B测试。引用书中例子,在 2012 年 12 月,Google
更改广告,在广告右方添加一个由正方形包围的向右箭头。
说多怪就有多怪,它指向右方,但右方根本没有东西。事实上,这个看似无意义的箭头,
却在 A/B测试中胜出,这样做会有更多人点击,让 Google 和他们的广告客户赚大钱。
▍就是因为我们不了解人性,所以测试才这么有价值。
大数据以真正奏效的因果关系,取代直觉、猜测、普遍看法和虚假相关性。
.
.
■ 后记:表皮,果肉与纤维
.
在阅读过程中,时而觉得这本书颇有《苹果橘子经济学》的气质,行至结论,作者还真提
到他写这本书的最大原因,是受到 李维特(Steven D. Levitt)的启发。
看似苹果,切下去变成橘子,用来比喻“事情的本质跟表面往往不同”,也呼应本书提到
的“结果往往违反直觉”。
我喜好《数据、谎言与真相》更胜《苹果橘子经济学》,更严谨的研究方法、更有组织的
书写脉络、更贴近你我周遭的议题,佐以更细腻的资料探勘技术。
以前剖开表皮,见到橘子果肉就心满意足。现在则是连纤维都不容错过。