Re: [爆卦] 美国教授踢爆高虹安大数据招牌造假 murai111 PTT批踢踢实业坊

Re: [爆卦] 美国教授踢爆高虹安大数据招牌造假

楼主: murai111 (明镜止水) 2021-09-26 19:21:10

大家好，打给厚，胎嘎厚，马哩马哩蹦。身为一个资料科学家，好死不死咧，Dr.嘴叔在
某个场合遇到过野生翁达瑞。忍不住又要来嘴一下。
以下文长，为了保护你的眼睛，可以直接到这里用听的
https://reurl.cc/95OaQn
本集达特嘴哥地图砲本来要在节目里面跟大家揭晓翁瑞达的背景，没想到节目才录到一半
，Dr.彭文正就手快脚快的丢了一个名子出来，乡民用自己打一次手枪的速度就肉搜到了一些
目标。Dr.嘴叔在此不直接透露姓名，请大家自己用Quasi-attack从以下消息去比对。其
实Dr.嘴叔不是要讨论谁是翁达瑞这么无意义的话题，who fucking cares?而是要讨论什
么是
大数据专家
翁教授质疑高委员是冒牌的大数据专家，但什么是大数据?什么又是大数据专家?翁教授应
该要先定义好前提，再来讨论高委员到底够不够格称为大数据专家。
首先大数据专家可以被拆成大数据AND专家。翁教授把重心放在专家，只要证明高委员不
是专家，自然他就不可能是大数据专家。首先翁教授企图把专家和学霸连结在一起，他认
为高委员的学历还不到学霸的水准，所以自然也不是什么专家。Dr.嘴叔不是很吃学历这
套，但是学历多少还是有点参考标准。身为一个资料科学家，直接上资料。
这边提供四个排名系统
A. Usnews national university rankings
B. Usnews global univeristies rankings
C. Usnews best engineering schools
D. Usnews best business schools
其他还有英国的QS，上海交大排名，但因为当事人念的是美国学校，所以就拿Usnews排名
为主。
高委员(UC) 翁达瑞(美国中部某知名大学)
A 148 40-50
B 202 50-60
C 92 5-10
D 100-150 N/A
首先A是翁教授在FB嘴高委员使用的排名系统，翁教授当年博士班念的学校在这分排名里
面的确是屌打UC。然而这份排名是大学部的排名，并不考虑学校的学术表现，所以拿来做
博士班的比较是不准确的。而B排名是世界大学排名，考虑了学校的学术成就和名声，在
这份排名里面UC被翁教授的母校屌打。UC世界排名202其实算不错，台大在这份榜单排184
，师大1000+。如果以翁教授的想法，要念台大才是学霸，那其实UC和台大在世排的差别
不大。当然啦，翁教授讲的是血统纯正，台大大学部才算数，但是台大的大学部排名并不
会在A榜单中。但是B榜单还是有BUG，翁教授念的是商学博士，高委员念的是工学院，这
是要比个屁。所以我们可能要看的是C和D榜单。UC的工学院排名92，被翁教授的母校屌打
。但翁教授母校的商学院排名连USNEWS都懒得提供数字，在系所排名部分翁教授的母校被
屌打。所以这一回合就算平手吧。
但是今天要比的不是这两个人谁才是够格被称为学霸。不是学霸的人难道就不能嘴人吗?
以翁教授的资历，包含他过去任教的学校(经过嘴叔的查证，他并没有灌水)，高委员的学
历的确还不够格被称为学霸。就像很多人觉得念台大就是学霸，但台大土木的同学可能觉
得台大医科才是学霸。问十个人会有十个对学霸的标准。所以翁教授身为侧翼，打学历是
不对的。
我们应该去看论文引用数。前面有网友也讨论过了。根据Research Gate高委员的论文引
用数有4400。
这个数字非常惊人，基本上是神人的等级，Dr.嘴叔完全看不到车尾灯。台湾很多国立大
学的终身职教授可能干了一辈子都达不到这个数字。好，所以有人开酸，这些高引用数的
论文，高委员几乎都不是第一作者。如果只算高委员第一作者的文章，引用数剩下100不
到，被打回正常人。这个讲法有点不公道。首先我们从时间轴上来看李杰教授的论文引用
数
https://reurl.cc/OkpnkX
因此高委员大数据专家这个称号，已经到手了一半，也就是专家。
再来什么是大数据?
根据一份业界的定义，数据快速成长会遇到四个方向：Volume(大小), Velocity(资料制
造的速度), Variety(多样性)以及Veracity(真实性)。由此可以了解数据多大是大数据。
以Dr.嘴叔电脑科学的背景来看大数据这门学问，其实是要解决资料存取和计算的问题。
当数据大到内存装不下的时候，电脑要怎么做运算?当数据大到一颗硬盘装不下的时候
，那你有买两颗吗?一颗D槽装不下，你有装NAS吗?
在电脑科学领域大数据是分布式系统设计的问题，数据变的这么巨大，使用者要怎么调出
自己要用的那些资料，电脑要怎么知道资料放在哪?要怎么快速的收集到所有资料?使用者
要做计算，又要怎么弄，一台电脑算不了了，要怎么把计算分散?
以上就是电脑科学领域中，所谓大数据要处理的问题。基本上是一个系统设计的问题。
使用者用Sparks, BigQuery就可以轻松取得他们要的资料。所以我其实不知道大数据分析是三小
我们摊开高委员的论文，Dr.嘴叔大致过了四篇，包含
李杰教授主笔获得3600次引用的
A cyber-physical systems architecture for industry 4.0-based manufacturing
systems
这篇论文只有六页，最后一页只有参考文献。内容来说看得懂英文的人就看得懂，主要在
讲一个CPS-5V的架构：
https://reurl.cc/xEOAvN
1.从机器收取资料
2.把资料变成有用的资讯
3.结合所有机器的资料作peer-based analysis
4.把资料呈现给管理者，让管理者好做判断
5.不管用人工智能或是工人智慧的方式，把命令返还给机器，让机器可以自动调整，优化
制程参数。
这篇文章大概内容就是这样，几乎没有技术牛肉。比较像给出一个研究愿景或者工业4.0
的趋势。一般能发表这种纯嘴砲论文，作者肯定是大头，通常实作的部分会在其他地方发表。
另外在台GG工作一段时间的工程师，是不是感觉到了deja vu，这不是十年前台GG就在Run
的东西吗?感觉李杰教授应该不是一般人，他那里欧印彼特币应该还来得及。
为了证明高委员和大数据的关系，Dr.嘴叔又找了同年发表，标题跟上一篇有87%像的这两
篇论文
高委员同学Bagheri主笔的
A cyber physical interface for automation systems—methodology and examples
高委员列名第三作者，总共有300次引用
高委员主笔的
Cyber-physical systems architecture for self-aware machines in industry 4.0
environment
总共有50次引用
我原本以为可以看到技术内容，但这两篇paper大多也是打嘴砲。想知道高委员的研究领
域是怎么写paper的，可以自己点我的podcast连结听，我大该花了一分钟讲完，但我不想
花五分钟打字，因为大家看了也是浪费时间。
所以Dr. 嘴叔只好又去找第四篇paper来看，也就是跟高委员博论同名的
Quality prediction modeling for multistage manufacturing based on
classification and association rule mining
当然也是由高委员主笔。
从标题来看，的确是技术性的内容。简短来说，作者提出了一个模型希望从机器返还的资
料来预测机器最后做出来的产品会不会被品管打枪。使用的方法是用PCA对资料做降维打
击，之后把feature丢给决策树、贝氏分类器、SVM、Apriori、Rough set等去判断品管结
果。使用的资料是某半导体的制程资料，做了实验比对发现基于Rough Set算法的分类器
可以屌打其他Bench Mark。爽，可以毕业了。
好看到这里，了解机器学习的同学可能会觉得干这三小，这些模型可能比很多大学生年纪
还要大，况且也不是什么大数据计算。但是这并不能说明高委员不懂高深的技术，研究没
用到不代表不懂。而且在业界有很多问题其实根本不用什么很屌的模型，什么深度学习。
feature抓一抓丢给sklearn里面内建好的各种模型，看谁的结果好就用谁的，打完收工，
高委员也是这样做的，简单粗暴，有没有用？有用!那你他妈有什么问题?
不过咧，Dr.嘴叔要argue的是这篇研讨会论文写的不是很好。想知道为什么的自己去听我
的podcast。因为这不是讨论高委员是不是大数据专家的重点。而且这是一个2017年在台
湾垦丁半的研讨会，看网站就知道不是什么重要的研讨会，一般美国的博士生会把研究丢
到这种研讨会，来取得学校赞助的台美来回机票，免费回台爽玩一波再回学校，但这一切
都被武汉病毒给毁了。
快速看完这些paper，我决定不再继续找下去，因为我忽然恍然大悟。
大数据这三个字在非电脑科学领域，实际上是一个行销用语。任何东西前面摆个大数据，
就会变得高大尚。所以想当然尔，高委员的研究领域用这种方式写paper，的确就是在发
挥大数据的精神和其专业。
因此，身为职业资料科学家而且拥有博士学位的的Dr.嘴叔在此认定，高委员的确就是大
数据专家，仅代表个人想法，Dr.嘴叔只是一位看数据说话的小宅男，请勿肉搜。

继续阅读