既然都有人点名惹 小弟我献丑一下好惹
不过今天先不要讲贝氏 贝氏作图跟搭配公式讲要花很多时间准备
先看看推文有人说到104的资料好惹
美国资料我现在懒得点 我期末考完再看看><
===========================================
做资料科学的步骤第一项就就是资料如何收集
在104图表下方 他都有写说资料来源如何来
“
资料来源:104人力银行履历数据库,该学系毕业生(含日/夜间部)填答薪资及职
务特性问卷而来,并由系统逐一检验,以确保资料的正确性。 图表资料固定于每
月第一周更新,剔除超过一年的样本;以确保资料的时效性。
”
上面是引用自104网站 可是
第一个很大的缺陷应该大家都能看出来
就是样本数太少
我没有特别去估算一间学校的毕业生有多少啦
不过抓一下 大系一个年级大概都80~100吧 现在2020 不看最近建立的学校
毕业生的总数至少都有2000左右
那这样抓的话 他整体人数都只有抓 200人左右 这个是数量非常少的
很难做大样本分析 不过没关系 统计如果只会大样本分析 早就被淘汰了
那接下来第二个步骤 我们要做model
可是 这个网站 的model 方式 只有做order statistic
简单的说就是大小排序而已
很明显 从网站给的分布 我们只知道 几%的人在哪个区块
但要如何从样本推到母体
从我的角度看来是无法啦 毕竟只从order statistic中 很难看出任何的资讯
依目前所学过的 我猜想 poisson 或是 multinomial 可能会好些
不过还是要回头做一些假设检定来看看model合不合适啦
===========================================================
除此之外 主张104的统计无用还可以用以下角度
1.统计时有没有把样本背景尽力消除
讲白一点 就是高中的不变变因有没有确实处理好
这个可以透过分类方式处理 (这里很明显没有)
或是用大数据的方式来稀释这些噪声(这里也没有)
因此很可能 薪资跟科系只有相关性 而缺乏因果关系
2.另一个问题是发明民调的人(我忘记叫啥了QQ) 也犯的错误
就是他今天搜集的资料 已经是condition在 会使用104找工作填问卷的前提了
这就是很容易出现的资料搜集偏差 可能这些人有共同的某些特质
例如薪水较高的理组 薪水较低的文组等等
都是可能会出现的问题
其他的还有一些关于资料上的问题 就可以连接到贝氏理论了
如果有人想听下次再打 我要去念期末惹QQ
=======================================
BTW 如果想知道一个科系可以干嘛 薪水多寡 其实每个系办都会去统计自己系上同学
你去找系办都可以比104准喔