第十一章 多因素试验资料的方差分析

x2yline

2017-11-01


知识清单

1. 析因资料的方差分析(factorial experiment)

1.1 基本概念

多个因素多个水平的全面交叉分为处理组,每一组合至少重复2次

以下表为例:

  b1 b2
a1 24 44
a2 28 52
  • 单独效应(simple effect):其他因素固定时,同一因素不同水平间的差别,如A固定在a1水平的时候B因素的单独效应为a1b2-a1b1=20
  • 主效应(main effect):指某一因素各水平间的平均差别,如A因素的主效应为((a2b1-a1b1)+(a2b2-a1b2))/2=(4+8)/2=6
  • 交互作用(interaction):当某因素的各个单独效应随另一个因素变化而变化时,则称这两个因素间存在交互作用。A与B的交互作用表示为AB(A是否随B的变化而变化,AB=[(a2b2-a1b2)-(a2b1-a1b1)]/2=(8-4)=2

主效应和交互作用的区别就是加减号不同

1.2 基本思路

变异分解的思路

总变异分解为处理组间变异误差,处理组间变异继续分解为主效应交互作用

交互作用通常通过处理组间变异和主效应做差求得

自由度:
g=IJK个处理组,每组例数为n则总变异自由度为gn-1,A主效应自由度为I-1,B主效应自由度为J-1,C主效应自由度为K-1,AB的自由度为(I-1)(K-1)···,ABC的自由度为(I-1)(J-1)(K-1),误差的自由度为为g(n-1)也等于总自由度减去其余分解出来的自由度。

1.3 R语言实现

与前面的拉丁方分析一样【有一点不同是拉丁方没有考虑个因素直接的交互作用而使用aov(y~a+b+c),因为使用拉丁方的前提条件是横行、直列单位组因素与试验因素间不存在交互作用1】,考虑交互作用则用aov(y~a*b*c),用aov函数按不同因素进行分解即可,如例11-3的数据:

data1 <- haven::read_sav(
  "E:/医学统计学(第4版)/各章例题SPSS数据文件/例11-03.sav")
# x是热感觉评分,a是军装类型,b是环境,c是活动状态
# 都应该转为factor否则会默认是数值而不是分组标识
data1$a <- factor(data1$a)
data1$b <- factor(data1$b)
data1$c <- factor(data1$c)
head(data1)
## # A tibble: 6 x 4
##       x      a      b      c
##   <dbl> <fctr> <fctr> <fctr>
## 1  0.25      1      1      1
## 2 -0.25      1      1      1
## 3  1.25      1      1      1
## 4 -0.75      1      1      1
## 5  0.40      1      1      1
## 6  0.30      2      1      1
summary(aov(x~a*b*c, data=data1))
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## a            4   5.21    1.30   3.032   0.0221 *  
## b            1   9.92    9.92  23.083 7.13e-06 ***
## c            1 283.32  283.32 659.096  < 2e-16 ***
## a:b          4   1.95    0.49   1.132   0.3472    
## a:c          4   1.48    0.37   0.862   0.4908    
## b:c          1  12.69   12.69  29.517 5.82e-07 ***
## a:b:c        4   1.61    0.40   0.935   0.4479    
## Residuals   80  34.39    0.43                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2 observations deleted due to missingness

结果与教材上的一致,结论为不同军装,不同环境和不同活动状态的主观热感觉都有差别,但尚不能认为军装与其他两个因素存在交互作用(b,c)。

2. 正交设计与方差分析

2.1 基本概念

当析因设计要求的实验次数太多时,一个非常自然的想法就是从析因设计的水平组合中,选择一部分有代表性水平组合进行试验。因此就出现了分式析因设计(fractional factorial designs),但是对于试验设计知识较少的实际工作者来说,选择适当的分式析因设计还是比较困难的。

正交试验设计(Orthogonal experimental design)是分式析因设计的主要方法,是研究多因素多水平的又一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均匀分散,齐整可比”的特点。例如作一个三因素三水平的实验,按全面实验要求,须进行33=27种组合的实验,且尚未考虑每一组合的重复数。若按\(L_{9}(3^{3})\)正交表按排实验,只需作9次,按\(L_{18}(3^{7})\)正交表进行18次实验,显然大大减少了工作量。因而正交实验设计在很多领域的研究中已经得到广泛应用。2

  • \(L_{n}(j^{i})\)的含义:
    • L–正交表的符号
    • n–正交表的行数(试验次数,试验方案数)
    • j–正交表中的数码(因素的位级数)
    • i–正交表的列数(试验因素的个数)
    • \(n=j \cdot i\)–全部试验次数(完全因素位级组合数)
  • 两项性质
    • 每一列中,不同的数字出现的次数相等
    • 任意两列中数字的排列方式齐全而且均衡

以上两点充分的体现了正交表的两大优越性,即“均匀分散性,整齐可比”。通俗的说,每个因素的每个水平与另一个因素各水平各碰一次,这就是正交性。

正交表由两个表构成,一个是用来安排实验的,另一个是表头设计表

在正交试验法中的最好点,虽然不一定是全面试验的最好点,但也往往是相当好的点。特别在只有一两个因素起主要作用时,正交试验法能保证主要因素的各种可能都不会漏掉。这点在探索性工作中很重要,其他试验方法难于做到

2.2 结果分析

  • 直接分析法
    • 直接比较出哪几个因素组合较好
    • 计算交互作用的较好组合
    • 结合比较和计算的结果
  • 方差分析
    • 需要留有误差列
    • 每列的组间离均差平方和进行方差分析

Reference: