[心得] 数据、谎言与真相

楼主: shoshin (shoshin)   2020-02-29 16:55:24
图文版本
https://slowquick.xyz/big-data-internet-can-tell-us-who-we-really-are/
我们的直觉,常常是错的。
数据不只是揭发已然发生的状况,更能够作为一种预测工具,
透过数据分析,可以得到我们真正想要知道的事情。
这本书,希望透过大数据的分析,能知道,人们实际做了什么
而不是他说了什么,从而了解真实需求,探究更多的可能。
作者也期待这种分析,能让原本的社会科学,渐渐成为真正的科学,并改善我们的生活。
这本书主要的数据分析方式之一,
是以搜寻引擎所带出来的大量数据,来探讨可以怎么样的运用,怎么去辩知真伪。
人会说谎,大数据不会
透过搜寻引擎这种匿名的行为,是真实的需求,
不会有人去找本身并不需要的需求,因此也没有说谎的理由。。
问对问题,探究更多的可能
要从数据中获得宝贵资讯,最关键的一点是:你必须问对问题。
而大数据有四大关键力量可以协助:
⒈大数据能让你将数据切割分解,让你见微知著及获得具体的见解。
⒉新的资料来源通常包括新类型的变量,比现存变量更能帮助我们了解复杂关系,
并充分利用。
⒊新的数位资讯能提供我们生活的真实样貌 (诚实),
而非我们希望自己呈现给外人的形象 (掺杂谎言)。
⒋大数据易于与实验结合,使我们能测试因果关系,而非仅是相关性。(A/B test)
挖掘真实需求,破解错误认知
顾客告诉你的想法,不一定是真实需求
对企业来说,真正有用的数据,是藏在顾客的消费行为、模式当中。
很多的事实是和我们一般来说的认知有差距,书中很详细的说明一些例子,像是
* 血统越纯正的赛马,越容易拿到冠军?
* 欧巴马当选是代表不再有种族歧视吗,
* 川普的当选代表了什么
* NBA选手都出生于贫困之家,因为那是少数可以赚大钱的路
* 为什么有些地区的人民会想办法不缴税
* 哪里是养育小孩的最佳地点
* 因为分数差一点而上到不同学校的学生,是否影响会很大?
* 同性恋者的数量、民众对恐怖份子的强烈仇恨、新闻标题的吸引程度
关于资料搜集,越多越好吗?
要做出正确的决策,倚赖的并非是“大量”的数据, 而是更具关联性的数据。
数据量不是最重要的,必须要知道他的因果关系,数据之间彼此的关系
关于数据预测与测试
若从我们的生活经验就能判断答案,那么测试就不会有价值。
更有效率且风险及成本更低的方式进行 A/B 测试
知道“为什么”重要吗? 数据让我们更了解人性,但是做预测,只需要知道怎样做有效,不需要知道“为什么”有效。
统计学能够绕过未知的原理,先得到结果。然后再用结果去找原理。
透过A/B 测试,能够运用大量的小型测试,去知道哪些调整能够达成更佳的效果,
这种方式,往往是很难事先去预估得到的。
而这种方式,也是新型数位大数据的超大优势。
找分身的预测法来进行预测
找寻有多个因素相同的分身,来做预测的实验。
隐私和监管会是个问题
预测和隐私怎么平衡,哪些东西不该用预测监管,是一个隐含很多重要问题的议题。
大数据有道德风险
书中也提到了一个大数据衍生出来的议题 - 道德危险。
因为人不知道自己的言论在大数据上呈现的归类在哪一类 ?
数据的不可靠性
数据是机率、倾向,却不是每一个人的选择。在使用上只能参考。
最好的方式是用数据分析,搭配着传统的知识。
作者认为,要协助大数据发挥最大作用,通常需要一种特定秘方,
也就是小数据 - 人类的判断和小型调查。
结论
若想以数据来革新一个领域,最好进入一个传统方法效率极差的领域
整体而言,除了有些部分比较繁琐外,
这本书应该可以增加对于数据分析和大数据的一些想法。
有兴趣的人可以看看。
作者: osmanthusjo (观念快扭曲了)   2020-02-29 19:46:00
感谢推荐,对这本很有兴趣
作者: c80352 (谙语)   2020-03-01 03:24:00
可以搭配《大数据的傲慢与偏见》来看

Links booklink

Contact Us: admin [ a t ] ucptt.com