Re: [问卦] AI大数据分析是不是过誉了?

楼主: sxy67230 (charlesgg)   2021-10-13 09:53:57
※ 引述《lpbrother (LP哥(LP = Love & Peace))》之铭言:
: 之前很多学校就喊说大数据分析怎样的
: 但事实上目前唯一能够应用的只有
: google 的搜寻分析
: google 就是分析大家搜寻的关键字推送最需要的网页
: 但除此之外,
: 统计学家长期以来都得承认,
: 最困难的是如何证明两组不同数据之间取得关联性,
: 要不然就会闹出类似
: 男人比出OK的手势的圆圈大小等于他的睾丸大小
: 这种笑话
: 但是这种笑话一样的数据分析论文到处都是,
: 根本没有做到所谓的大数据分析的效果,
: AI大数据分析是不是过誉了?
: 有没有八卦?
所以任何当前的机器学习模型都需要Data scientist来做前置性分析的啦。明星级的DS多
半是数学、统计、计算机科学交叉领域的专家,一个好的模型训练集跟测试集必然存在独
立同分布,独立同分布是为了确保样本足够分散各类均匀又能代表真实分布,因为分散均
匀若模型只看了其中8成比例数据必然能泛化剩下的两成(这边必然有数学上的验证,由于
有大量数学引理就不赘述,可以从林轩田老师的基石课去找资源,关键字VC generalized
bound,进一步去找近年DL的学习性研究PAC-Bayes Bound,还有一个私心推荐写得很好
的Paper: Deep Neural Network Approximation Theory,从Information theory角度切
入问题的,可以学到很多。)
剩下就是样本是否代表真实数据的问题,所以DS必然需要了解客户所谓的真实数据到底是
指什么,再透过叙述性统计跟假设还有EDA确认学习的范围。
最后一点针对不同分布(domain)的学习也是近几年各学者想攻破的,包含主动学习、元学
习、表示学习(是否我们还能再把数据透过自监督抽象化给不同领域的问题)、持续学习,
这些都是目前正在研究的方向,也是来期望的让机器有办法真正举一反三、看少量的数据
就可以学习、持续性学习而不遗忘。另外,还有一门领域是透过对生物脑的理解试图建构
可以运作的仿生物脑模型,这一些都是近年学术的成果啦。
AI落地的路未来会很长,这是持续一两个世纪的科学革命,现在只是革命前夕而已,我不
后悔作为科学家为人类演化的这一里路贡献我的人生在研究上啦。我是不相信柏拉图主义
那套哲学思路的,因为科学适时更偏向于灵魂可能与心智大脑是同一种表述的,透过基因
即可建构任一的心智生物,那灵魂论就是多余的了。

Links booklink

Contact Us: admin [ a t ] ucptt.com