※ 引述《htx9 (蚂蚁)》之铭言:
: 再回到大数据的议题上,网络行为提供许多大数据,例如Google搜寻、广告效益、FB或
: Youtube的订阅人数、观看数、按赞数、分享次数,各大论坛的热门趋势和热门搜索,还有
: 传统调查或纸本资料的数据化、不同国家或团体的资料共享、聊天机器人的数据蒐集等等
: ,每天这世界上有如此庞大的数据产生,多亏资讯科技的发达、人手一台手机或电脑,以
: 及互联网的全球化,让资讯得以快速地传递与分享。(谜: 不是人手一台手机或电脑。)
: 这些庞大的数据集,里面可能有许多值得参考和分析的资讯,但是也有很多垃圾讯息。因
: 此在探讨大数据的研究上,我们希望能够从庞大的数据中找到有用的资讯,进而帮助我们
: 解决问题,或者改善我们的生活。这是我们研究大数据的主要目的。
那我们要怎么从庞大的数据中找到有用的资讯,我不知道,因为我不是这领域的专家。我
可能也只会像一般人那样,直接运用其他人研究的成果,或者询问专家的意见(或者询问
ChatGPT?)。研究大数据是一项庞大的过程,一般人可能没那种时间去研究那些,所以想
知道什么就直接找答案就好了,就算找不到答案也可以找到一个自己能够接受的解释(或
者找到一半懒就不找了,尤其是那些没有答案或者不重要的问题。) 我们只要学会如何用
查询的知识解决问题就好,在这个讲求效率的时代,直接去寻找怎么做,比起去询问为什
么要那么做还要来得有价值。我们不用去了解大数据间错纵复杂的关系,只要告诉我们什
么跟什么之间有关系就好了,就算暂时无法证明是不是有因果关系也没关系。不过有时候
有关系是因为各种复杂的因素巧合导致,所以也不必去迷信任何研究或搜寻结果。比较合
适的方式就是去参考多方的意见,然后自己再进行判断的动作。尤其是那些重大议题,像
是要不要做手术或做化疗。因为有时候专家会误判,或者其他人有更好的处理方式,所以
只征求第一意见可能会面临更大的风险。不过如果是一些比较不重要的问题,或者很明显
只能如此做的问题,那可能不一定要参考多方的意见,有时候意见太多会让人感到困惑,
进而错失处理的黄金时间。
作者说明大数据提供的四种力量:
(1) 提新类型的数据,而不是传统调查数据集。
(2) 提供诚实的数据。
(3) 允许我们把焦点放在人口中的小子集。
(4) 允许我们进行许多因果关系的实验。
大数据提供许多我们传统调查可能难以发现的数据,我们可以透过交互分析来找出某项因
素之间的相关性,不过我们也要注意有相关性不见得就有因果关系,而且有时候这些相关
性是因为巧合所导致的。也许我们可以透过大数据找到更多社会现象的相关性或因素,进
而做更准确的预测和应对措施。
有关诚实的数据,虽然比起人与人面对面,网络行为可能提供较诚实的数据,不过像FB、
推特或其它社群网络,可能大家比较想提供自己较好的一面出来,所以不见得就是诚实的
数据。诚实的数据应当是在自以为没人知道的地方所从事的各种行为,像是一个人在私底
下会暴露出什么本性一样。不过有时候就算以为没人知道,其实可能还是会有人知道,像
是搜寻引擎企业员工可能无聊会去搜寻使用者在搜寻什么,一些隐匿看板的社群管理员可
能吃饱没事干会看一下这些人在私底下发表什么言论。
第三点就是可以从不同角度来看待大数据,可能会依照地区、职业、种族、年龄层来分类
,也可能透过将时间切分成不同维度(如每分、每小时、每天、每月等)。不管从宏观的角
度或者微观的角度来看待数据,重要的是我们能够从大数据中找到什么有用的资讯?
因果关系的实验就是随机对照实验,或称A/B实验。在互联网时代,我们可以用较低成
本、较快速度、较广范围参与者的方式来进行许多实验。这是以往传统实验难以做到的,
尤其是像网络行销或服务的公司,可以透过A/B实验来找到效益更高的方案,有时候这些
方案违反直觉,反正结果好就好,不一定要去知道它背后的原因为何。网络的A/B实验,
就是类似推出某些新功能或更改外观时,某些使用者会看到其中一种功能或外观,某些使
用者会看到另一种。然后根据实验的统计结果,来看看哪种方案可以收到更大的利益,或
者让使用者更常使用这些服务。当然这些实验看起来无伤大雅,但有时某些方案却能够造
成更大的回响,为什么可能没人知道,反正结果好就好。
当然,不是什么东西都能进行这样的实验,尤其是那些牵涉重大或者会引起道德争议的议
题。如果政府推行什么政策采用这样的实验,可能会引起许多反弹。不过这样的实验好像
在外国有很多? 不晓得国内情况如何? 不是指在哪些县市试办然后看看效果如何,好的话
再推行到其它的县市。而是在某些地方采用这样做,某些地方采用那样做,然后看看哪一
种做法比较好。数据会说话,接下来就将比较好的方案推广到其它地方。不过就算能够测
出哪个方案比较好,也不见得在其它地方采用这样的方案也会比较好。每个地方的情况都
不太一样,国外某些成功的方案不见得能够适用在台湾身上,反之亦然。当然如果很多地
方采用相同或类似的方案,都能够得到不错的成果,那也许跟进得到类似的结果机率也相
对地比较高(但并非必然)。
虽然大数据充满神祕的谜团且令人向往,不过也不是数据愈多愈好,变量愈多愈好,否则
可能会陷入许多思维的陷阱。像如果我们根据一个人的搜寻纪录、浏览纪录、贴文纪录、
按赞纪录、留言纪录来判断一个人的本性,可能会产生某些特定的偏见。例如看到某些男
人很喜欢谈论性、女人和A片,就认为他们可能是潜在的强暴犯。看到某些人查询或询问如
何杀人,就认为他们可能会做出伤人的行为而报案。公司如果想要录用人才,除了履历表
和面试,他们可能也会去查询应征者在网络上所发表的言论(如果找得到的话)并做录用与
否的参考。我们可能会过度相信网络查询到的资讯,然后来评价一个人,认为这个人的本
性就是这个样子。喔,这一段可能打的不是很好,前面讲的跟后面讲的可能比较没什么关
系。
数据不是愈多愈好,这部分其实我本来想表示的是过多的资讯可能会让我们迷失原本的目
标。可能你本来想要查询什么东西,结果查一查后来就把焦点放在其它的事物上,导致我
们原本想要查询的问题没有获得解答。有时候某些资讯可以提供有效的论点时,我们就不
一定要获取更多的资讯,当然多方查询并非一件坏事啦,尤其是要做什么重大决策时。只
是不要忘记我们查询的目的是什么? 主要是为了解决问题,或者满足求知欲,或者只是纯
粹无聊,或者只是想要告解、纾解压力,或者只是要写作业报告…等等。
变量不是愈多愈好,这部分其实是要找某些因素之间的相关性或因果关系。如果你的变量
有很多,可能会凑巧找到一个变量刚好具有相关性,如果你以为已经找到解答的话,可能
就会陷入思维的陷阱。作者也提供一个例子,也就是基因学家在寻找DNA序列什么会跟什
么有关系时,有时候会发现什么会跟什么有关系,然后他们就很开心发表这个重大发现,
如果事后能够证实的话,也许可以捞到一个诺贝尔奖,不过常常发生的情况是事后进行其
它数据集的研究时,反而推翻他们原先的发现。科学研究就是这个样子,如果你不能够在
其它地方重复验证这样的相关性或因果关系,那么你就不能够声称自己找到什么重大发现
。也许之前韩国声称找到常温超导体,也是陷入了这样的一个陷阱。你看像物理学、生物
学或化学这样严谨的科学领域都有可能会犯这种思考陷阱了,更不用说在经济学、政治学
、社会学这些难以论证的领域,有多少人会犯这样的错误了。
有空再打。