心理研究法的两条路线,anova与回归分析,如果都熟悉计算方式,最后可以了解到
anova = 回归的一种特例的话,我相信你统计绝对够强了。
先提到很多统计老师的教法顺序错误。许多所谓的“名师”在教完描述统计之后就教相关
、简单回归甚至多元回归。描述统计教相关是非常恰当,但教简单回归则开始有点不智,
接着教多元回归就更不智!简单回归与多元回归应该是要在anova系列教完之后再教,否
则的话简单回归要对b做t检定,多元回归模式要对回归变异做F检定,而当t与f检定都不
懂的时候,何来懂得简单与多元回归?
anova跟回归可以算是概念一致的东西,在统计的角度上anova算是回归的一种特例,回归
的xy变项适合各种变项,常见的是 x连续vs y连续。而anova则是x类别 vs y连续。他们
都可以用一般线性模式的表达 Y = bX + e。试想有三组数分别为 2 4 6 ,6 8 10,10
12 14,请你用anova计算F值,你的计算方法是会算出组内误差与组间的变异。若请你以
回归的角度来计算此三平均数有无差异的话,你首先要找出y^,y-y^则属误差,y^-y平均
数则属预测可解释的变异。y-y^即同等于anova中的组内误差,而y^-y平均数即相等于
anova中的组间变异,所以你最后算出来reg变异/误差变异的F值与ANOVA相等。
一般线性模型,即每一个原始的y值可以由x与系数b的预测bx加上一个误差e来代表即 Y
= bX + e,的矩阵表达方式的重点就是在x的coding的部分。coding的方法,可分为cell
means model, Regression model, effect model, dummy coding model。不同的coding
模式主要是根据x变项而调整,若x为一般的连续变项则采用regression model,若x为类
别变项则可采用effect或是dummy coding model。
而回归可更胜于anova的部分就是类别变项本身的间距是无法了解的,而连续变项的回归
模式的x的间距则是可以清楚地了解,这会影响到y的趋势分析,愈清楚地了解x的间距,
愈可以了解y的变化是属一次或二次、三次趋势,而此是无法由类别变项来了解。这点又
回到一开始我在描述统计所提到的重点,你使用的变项就决定你最后统计的精确度。愈是
比率变项你会估计的更清楚,而愈是类别变项则较为模糊一点。