본문 바로가기

STATISTICS/고려대학교 통계연구소 2020 동계 통계워크샵

분산분석 이론

하기 작성된 내용들은 2020년 1월 13일 고려대학교 통계연구소 동계 워크숍 김경희 교수님의 강의 자료와 내용을 정리한 것입니다.

무단 공유 및 배포를 금합니다.

 

개요

통계적 추론의 절차

step1. State the problem : 통계 분석을 통해 얻고자 하는 정보, 즉 연구의 목적
step2. Decide what kind of data are relevant to the problem : 모집단, 표본, 요인, 변수의 결정
step3. Collect those data : sampling technique을 이용한 optimal sample로부터 data 수집
step4. Analyze the data, draw conclusions ny performing inferences for the problem of step1.

  • 기술통계: 평균, 분산, 표, 그래프.
  • 추론 통계: 가설검정, 구간 추정

 

실험 연구의 개요

  • 실험 연구의 필요성
    • 실험을 통해 관심 요인들과 반응에 대한 인과관계를 규명
    • 제어할 수 없는 여러 요인들로 인한 어려움을 극복
    • 실험 장치, 환경 요인의 변동 등을 감안
  • 실험 연구의 목적
    • 어떤 요인이 반응에 유의한 영향을 주는가?
    • 측정 오차는 어느 정도인가?
    • 유의한 영향을 미치는 원인들은 어떤 조건하에서 가장 바람직한 반응을 주는가?
  • 실험 연구의 순서
    • 실험 목적 설정 $\rightarrow$ 반응 변수, 요인, 수준 선택 $\rightarrow$ 실험 배치와 실험 순서 임의화 $\rightarrow$ 실험 시행 $\rightarrow$ 자료 분석 $\rightarrow$ 분석 결과의 해석과 조치
    • 분산분석은 반응변수가 연속형, 인자/요인이 범주형일 때 쓰는 방법

 

독립 이표본 t-검정 (Independent two-sample t-test)

  • 비교하고자 하는 그룹이 두 개인 경우
  • 연구목적 : 관심이 있는 변수의 모평균이 독립적인 두 집단간에 서로 차이가 있는가
  • 가정
    • 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
    • 등분산성: 두 집단의 분산은 서로 동일하다.
    • 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
  • 이론적 배경
    • 두 집단의 모평균이 동일하다면 차이는 0일 것이다.
    • 두 집단의 모평균이 동일하다는 가정 하에서 표본평균들의 차이는 정규분포를 따른다.
    • 표본평균들의 차이로부터 계산된 검정통계량은 t-분포를 따른다.
  • 표본의 차이가 통계적으로 유의(significant)한가?

 

검정(testing)

  • 검정절차
    • 해당 연구에 관한 귀무가설(두 집단의 모평균은 동일하다)과 대립가설두 집단의 모평균은 동일하지 않다)의 설정
    • 귀무가설 하에서 검정통계량 값 계산
      • 두 집단의 해당 변수에 대한 분산이 동일한가?
        검정통계량 = 표본 평균의 차이 / 표준 오차
    • 검정통계량의 분포를 이용해 계산된 p-값을 유의 수준과 비교
      • 유의수준은 p-값과의 비교를 위해 사전 결정해야 하는 수치로 이해
      • 귀무가설이 사실일 때 이를 기각하는 오류가 의사결절에 미치는 영향에 따라 이를 결정
      • 일반적으로 $\alpha$ = 0.05 또는 0.01이 사용
    • 최종적으로 합리적인 의사결정 수립
      • p-값 > 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 없으므로 귀무가설을 기각할 수 없다.
      • p-값 < 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 있으므로 귀무가설을 기각한다.
  • 검정통계량
    • 두 집단의 모 분산이 동일하다는 가정
      $$ t = \frac{\bar{X_1}-\bar{X_2}}{S_p \sqrt{1/n_1 + 1/n_2}}, \quad S^2_p = \frac{(n_1-1)S^2_1 + (n_2-1)S^2_2}{n_1 + n_2 -2} $$
    • 두 집단의 모 분산이 동일하지 않다는 가정
      $$ t = \frac{\bar{X_1}-\bar{X_2}}{ \sqrt{S^2_1/n_1 + S^2_2/n_2}}$$

 

비모수 방법(nonparametric method)

  • 표본이 정규분포를 따르는 모집단에서 추출되었다고 가정하기 어려운 경우
    • 표본 수가 적은 경우
    • 표본 수가 크지만 히스토그램으로 살펴본 결과 비대칭이고 이상치(outlier)가 많은 경우
  • 모집단의 분포가 정규분포라는 가정 대신 단지 모집단의 자료가 연속형이고 분포는 대칭적이라는 최소한의 가정을 요구하는 통계적 방법
    • 자료 값 자체 대신 자료의 sign이나 rank 사용
  • 분포 가정이 약화되어 활용 범위가 넓어지는 대신 효율성 떨어짐
  • 두 독립표본 t-검정에 대응하는 비모수적 방법: Mann-Whitney의 U-검정(Wilcoxon의 순위합검정, rank-sum test)

 

 

일원 분류 분산분석 (one-way analysis of variance)

  • 연구 목적
    • 관심이 있는 변수의 모평균이 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
    • 둘 까지는 독립이표본 t-검정으로 가능
  • 가정 (t-test 가정과 유사)
    • 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
    • 등분산성: 두 집단의 분산은 서로 동일하다.
    • 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
  • 분석의 흐름
    • 반응 변수 변환: sample size는 크지만 정규성은 만족하지 않는 경우, log, box-cox 변환 등의 방법을 통해 변환
    • 다중 비교: 평균이 달라 귀무가설을 기각하고 어떻게 다른지를 들여다 보는 것
    • ANOVA 분석 후 잔차분석(residual analysis)을 통해서도 검증
  • 분산의 구조적 분석을 통해 집단 간 평균 차이를 검정
    • 전체 변동(Total Variation: SST)
      • 개별 반응값이 전체 평균으로부터 얼마나 퍼져 있나?
      • 전체 변동 = 집단간 변동 + 집단내 변동
    • 집단간 변동(Between-group Variation: SSB)
      • 전체 변동 중 모형에 의해 설명되어지는 변동
      • 각 수준의 평균이 전체 평균으로부터 얼마나 퍼져 있나?
    • 집단내 변동(Within-group Variation: SSW)
      • 전체 변동 중 모형에 의해 설명되어지는 변동
      • 개별 반응값이 각 수준의 평균으로부터 얼마나 퍼져 있나?

 

제곱합(sum of squares)의 분할

$$ \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{i \centerdot} - \bar{y})^2 + \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y_{i \centerdot}})^2 $$

$$ \Leftrightarrow \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = n \sum_{i=1}^{t} (y_{i \centerdot} - \bar{y})^2 + \sum_{i=1}^{t} \sum_{j=1}^{n}(y_{ij} - \bar{y}_ {i \centerdot})^2 $$

$$ \bar{y} = \frac{1}{tn} \sum_{i=1}^{t} \sum_{j=1}^{n} y_{ij}, \quad \bar{y}_ {i \centerdot} = \frac{1}{n} \sum_{j=1}{n} y_{ij}$$

  • $ SST = SSB + SSW $
    • 집단간 변동 $\uparrow$ & 집단내 변동 $\downarrow $ : 집단간 평균 차이 존재
    • 집단간 변동 $\downarrow $ & 집단내 변동 $\uparrow $ : 집단간 평균 차이 비존재
    • 검정통계량 = 집단간 평균 변동 / 집단내 평균 변동
      • 검정통계량 $\uparrow $ $\quad \Leftrightarrow $ 집단간 평균 차이가 유의할 가능성 $\uparrow$
  • 검정 절차
    • 해당 연구에 관한 귀무가설과 대립가설의 설정
      • 귀무가설: 모든 집단의 모평균은 동일하다.
      • 대립가설: 적어도 한 집단의 모평균은 다른 집단들과 다르다.
    • 귀무가설 하에서의 검정 통계량 값을 계산
      • 집단간 평균 변동 = 집단간 변동 / (집단 수 - 1)
      • 집단내 평균 변동 = 집단내 변동 / (전체 개체 수 - 집단 수)
      • 검정통계량 = 집단간 평균 변동 / 집단 내 평균 변동
      • 검정통계량은 귀무가설 하에서 F-분포를 따른다.
        $$ F = \frac{SSB / (t-1)}{ SSW / t(n-1)} = \frac{MSB}{MSW} \quad \sim F(t-1, t(n-1))$$
    • 검정통계량의 분포를 이용해 계산된 P-값을 유의수준과 비교
    • 귀무가설 기각 $ \rightarrow$ 과연 어떤 집단들 사이에 평균 차이가 있는가?
    • 다중비교(혹은 사후검정)
      • Bonferroni의 t-검정, Fisher의 LSD, Scheffe의 다중비교, Duncan의 다중범위검정, Tukey의 HSD 검정 등
      • Duncan (Liberal) $ \Leftrightarrow$ Tukey (Conservative)
  • 분산분석표(ANOVA Table)
변동 원인 자유도 제곱합SS 평균제곱 F 값 P 값
처리 $t-1$ $SSB $ $ MSB=SSB/t-1 $ $F=MSB/MSW $ $Pr(F^{*}t > F[t-2, t(n-1)]$
오차 $t(n-1) $ $SSW$ $MSW=SSW/t(n-1)$    
전체 $nt -1$ $SST $      

 

다중비교 (multiple comparison)

  • 그룹간 평균 차이가 인정되는 경우, 어느 그룹간에 평균 차이가 유의한지 검정
  1. Least Significant Difference(최소 유의 차)
  • 두 집단간 평균 차이를 검정하는 독립표본 t-검정을 반복 실시
  • 비교별 오류율을 제어하므로 실험별 오류율이 커지게 됨
  • Liberal
  1. Bonferroni 검정법
  • 실험별 오류율 제어
  • 개별 비교시 유의수준이 지나치게 작게 되므로 검정력 떨어짐
  • Conservative
  1. Tukey의 표준화 범위 검정(Studentized Range Test)
  • 실험별 오류율을 제어하는 대표적 방법(표준화범위라 불리는 Q통계량 사용)
  • $ Q = (\bar{y}_ {max} - \bar{y}_{min} ) / S _{\bar{y}}$
  • 처리평균들간 차이가 $D=Q_a \sqrt{S^2 / n}$
  1. Ducan의 다중범위 검정
  • 매 단계마다 최소유의범위를 구하고 평균 차이와 비교하여 결론 내림

 

비모수적 일원 분류 분산분석 (Kruskal-Wallis' Test)

  • 분석 목적
    • 관심이 있는 변수의 분포가 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
    • 귀무가설: 변수의 분포는 집단에 상관없이 동일하다.
    • 대립가설: 적어도 한 집단의 분포는 다른 집단들과는 다르다.
  • 정규성 또는 등분산성 가정 위배될 때
    • 정규성 또는 등분산성을 만족하도록 자료 변환
    • 비모수적 검정방법 사용
  • 검정 과정
    • 반응값에 대한 전체 순위(rank)를 매긴 후, 이 순위값을 One-way ANOVA의 분산분석 방법에 적용
    • F 혻은 $\chi^2$-검정통계얄과 이의 근사 분포를 통해 계산되는 P-값으로 가설 검정 수행

 

 

난괴법 (randomized block design)

  • 교락요인(confounding factor, 반응 변수에 영향을 미치는 제어할 수 없/있는 요인)을 고려한 분석 및 실험 설계의 필요
    step1. 블록 구상 - 유사한 실험 단위의 효과

step2. restricted randomizatio - 블록 안에서 randomization(임의화) 수행

  • block 내에서는 동질적, block 간에는 이질적
  • 일반적으로 블록 요인은 관심사항 아님; two-way ANOVA와의 차이점

 

통계모형 비교

  • CRD
    $$ y_{ij} = \mu + \tau_i + \epsilon_{ij} , \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2), \quad \sum_{i} \tau_i = 0 $$
    $$ \tau_i : i번째 처리효과, \quad i=1, \dots, t, \quad j= 1, \dots, n $$
  • RBD
    $$ y_{ij} = \mu + \tau_i + \beta_{j} + \epsilon_{ij} , \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2), \quad \sum_{i} \tau_i = \sum_{j} \beta_j = 0 $$
    $$ \beta_j : j번째 블록효과, \quad i=1, \dots, t, \quad j= 1, \dots, b $$
  • Hypothesis for testing
    $$ H_0 : \tau_i = \dots = \tau_t \quad H_1 : Not H_0 $$

 

ANOVA Table

변동 원인 자유도 제곱합SS 평균제곱 F 값 P 값
처리 $ t-1$ $SSB$ $ MSB $ $F=MSB/MSW$  
블록 $b-1 $ $SSBR $ $MSBR$ $F=MSBR/MSW $  
오차 $(t-1)(b-1)$ $SSW $ $MSW $    
전체 $bt -1$ $ SST$      

 

 

이원 분산분석 (two-way ANOVA)

  • 요인실험(factorial design): 관심있는 요인(처리)이 둘 이상 있는 경우
  • 요인의 효과: 요인의 각 수준에서의 평균 반응값의 차이
  • 상호작용(Interaction effect)
    • 두 요인이 독립적이지 않고 서로 영향을 미치는 경우
    • 어떤 요인의 효과가 다른 요인의 수준에 따라 달라지는 경우
  • 상호작용에 대한 그래프적 표현

  • 상호작용이 없는 경우
    • 평균반응값을 각 요인의 수준별로 plotting 해보는 것 필요
    • 각 요인의 주효과를 이용한 실험 결과 해석
  • 상호작용 존재하는 경우
    • 해석시 주의
    • 실험 목적과 수준별 효과의 부호에 따라 달라짐

 

Model

$$ y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_ {ij} + \epsilon_{ijk}, \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2)$$
$$ \sum_{i} \alpha_i = \sum_{j} \beta_j = \sum_{i} (\alpha \beta)_ {ij} = \sum_{j} (\alpha \beta)_ {ij} =0 $$
$$ \alpha_i : i번째 A 요인 효과, \quad \beta_j : j번째 B 요인 효과, (\alpha \beta)_ {ij} : i번째 A, j번째 B 요인의 상호작용 효과$$
$$ i=1, \dots, a, \quad j= 1, \dots, b, \quad k = 1, \dots, r $$

 

제곱합 분할

$$ SST = SS_A + SS_B + SS_{AB} + SSW $$
$$ abr - 1 = (a-1) +(b-1) + (a-1)(b-1) +ab(r-1)$$

 

ANOVA Table

변동 원인 자유도 제곱합SS 평균제곱 F 값 P 값
요인 A $a-1$ $SS_A$ $MS_A$ $F=MS_A/MSW$  
요인 B $b-1$ $SS_B$ $MS_B $ $F=MS_B/MSW $  
상호작용 $(a-1)(b-1)$ $SS_{AB}$ $MS_{AB}$ $F=MS_{AB}/MSW$  
오차 $ab(r-1)$ $SSW $ $MSW $    
전체 $abr -1 $ $SST$      

 

 

공분산 분석 (Analysis of Covariance)

  • 실험의 정밀도를 높이기 휘애(검정력을 높이기 위해) 비교 집단들 간에 존재하는 차이 중 공변량(연속형 변수)에 기인하는 근본적인 차이의 효과를 통제한 수 집단들을 비교하는 방법
  • 분산분석 + 회귀분석
  • 공변량: 처리요인이 아니면서 반응변수에 영향을 주는 요인
    • 공변량이 그룹형이며 controllable: 블록 설계(covariate을 블록으로)
    • 공변량이 연속형이며 uncontrollable: 공분산분석(ANCOVA)
  • uncontrollable 교락요인 제거
  • 공분산분석은 분산분석이 주된 목적인 경우 주로 사용되면 이때 연속형의 설명변수는 교락요인일 수 있다.

 

Model

$$ y_{ij} = \mu + \tau_i + \beta(x_{ij} - \bar{x}) + \epsilon_{ij}, \quad \epsilon_{ijk} \sim \mathcal{N} (0, \sigma^2)$$
$$ i=1, \dots, t, \quad j= 1, \dots, r, \quad k = 1, \dots, r, \quad \sum_{i} \tau_i = 0 $$

 

ANOVA Table

변동 원인 자유도 제곱합SS 평균제곱 F 값 P 값
공변량(x) 1 $SS_{REG}$ $MS_{REG}$ $F=MS_{REG}/MSW $  
처리 $t-1$ $SSB$ $ MSB$ $F=MSB/MSW$  
오차 $t(r-1)-1$ $ SSW $ $MSW $    
전체 $tr -1 $ $SST$      

 

반복측정자료의 분산분석

  • 하나의 관측단위로부터 두 번 이상의 측정을 통해 얻어진 자료
  • 두 가지 중요 요인
    • 환자내 효과(within-subject effect): 일종의 시간 효과
    • 환자간 효과(between-subjects effect): 일종의 처리 효과
  • 두 가지 관심 사항
    • 각 처리의 평균값의 시간에 따른 변화
    • 처리효과(처리 간 차이)의 시간에 따른 변화
  • 일반적 통계분석과 가장 다른 점
    • 일반적 통계 선형모형에서는 각 관측치의 오차항은 독립적이라는 가정이 필수적
    • 반복측정 자료에서는
      • 각각의 환자들은 독립적
      • 한 환자 안에서의 측정치, 즉 같은 환자의 다른 시점에서 관측된 값들의 오차항 사이에는 상관관계가 존재한다고 가정
      • 일반적으로 한 환자 안의 값들 간의 상관관계는 관측 시점의 간격에 따라 다르게 가정
    • 반복측정 자료분석의 주요 목적은 시간에 따른 처리 효과의 비교이지만 모형의 구축 단계에서는 이 상관관게 구조의 설정에 가장 많은 노력을 기울임. 상관관계 구조의 올바른 선택은 반복측정자료 분석에서 가장 중요한 과정

 

절차와 내용

  • Mauchly Test: 구형성(sphericity) 가정에 대한 검정 방법
  • 구형성: 반복적으로 측정되는 자료들의 시차에 따른 분산이 동일하다는 가정
  1. 그룹간 차이 검정 (개체 간 검정): 집단들(종속변수) 간에 차이가 있는지 알아보는 검정 - ANOVA에서의 목적
  2. 시간 차이 검정: 종속변수가 시간의 차이에 따른 변화가 있는지 알아보는 검정 - 일반 ANOVA에서 불가능
  3. 시간과 그룹간 교호작용 검정: 겸정을 하는 그룹과 시간 사이에 교호작용이 있는지 없는지 해당 유의성 파악하는 검정
  • 이원분산분석에서와 마찬가지로 교호작용의 통계적 유의성 우선 검토가 바람직