분산분석 이론

하기 작성된 내용들은 2020년 1월 13일 고려대학교 통계연구소 동계 워크숍 김경희 교수님의 강의 자료와 내용을 정리한 것입니다.

무단 공유 및 배포를 금합니다.

개요

통계적 추론의 절차

step1. State the problem : 통계 분석을 통해 얻고자 하는 정보, 즉 연구의 목적
step2. Decide what kind of data are relevant to the problem : 모집단, 표본, 요인, 변수의 결정
step3. Collect those data : sampling technique을 이용한 optimal sample로부터 data 수집
step4. Analyze the data, draw conclusions ny performing inferences for the problem of step1.

기술통계: 평균, 분산, 표, 그래프.
추론 통계: 가설검정, 구간 추정

실험 연구의 개요

실험 연구의 필요성
- 실험을 통해 관심 요인들과 반응에 대한 인과관계를 규명
- 제어할 수 없는 여러 요인들로 인한 어려움을 극복
- 실험 장치, 환경 요인의 변동 등을 감안
실험 연구의 목적
- 어떤 요인이 반응에 유의한 영향을 주는가?
- 측정 오차는 어느 정도인가?
- 유의한 영향을 미치는 원인들은 어떤 조건하에서 가장 바람직한 반응을 주는가?
실험 연구의 순서
- 실험 목적 설정 $\rightarrow$ 반응 변수, 요인, 수준 선택 $\rightarrow$ 실험 배치와 실험 순서 임의화 $\rightarrow$ 실험 시행 $\rightarrow$ 자료 분석 $\rightarrow$ 분석 결과의 해석과 조치
- 분산분석은 반응변수가 연속형, 인자/요인이 범주형일 때 쓰는 방법

독립 이표본 t-검정 (Independent two-sample t-test)

비교하고자 하는 그룹이 두 개인 경우
연구목적 : 관심이 있는 변수의 모평균이 독립적인 두 집단간에 서로 차이가 있는가
가정
- 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
- 등분산성: 두 집단의 분산은 서로 동일하다.
- 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
이론적 배경
- 두 집단의 모평균이 동일하다면 차이는 0일 것이다.
- 두 집단의 모평균이 동일하다는 가정 하에서 표본평균들의 차이는 정규분포를 따른다.
- 표본평균들의 차이로부터 계산된 검정통계량은 t-분포를 따른다.
표본의 차이가 통계적으로 유의(significant)한가?

검정(testing)

검정절차
- 해당 연구에 관한 귀무가설(두 집단의 모평균은 동일하다)과 대립가설두 집단의 모평균은 동일하지 않다)의 설정
- 귀무가설 하에서 검정통계량 값 계산
  - 두 집단의 해당 변수에 대한 분산이 동일한가?
    검정통계량 = 표본 평균의 차이 / 표준 오차
- 검정통계량의 분포를 이용해 계산된 p-값을 유의 수준과 비교
  - 유의수준은 p-값과의 비교를 위해 사전 결정해야 하는 수치로 이해
  - 귀무가설이 사실일 때 이를 기각하는 오류가 의사결절에 미치는 영향에 따라 이를 결정
  - 일반적으로 $\alpha$ = 0.05 또는 0.01이 사용
- 최종적으로 합리적인 의사결정 수립
  - p-값 > 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 없으므로 귀무가설을 기각할 수 없다.
  - p-값 < 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 있으므로 귀무가설을 기각한다.
검정통계량
- 두 집단의 모 분산이 동일하다는 가정
  $t = \frac{\bar{X_1}-\bar{X_2}}{S_p \sqrt{1/n_1 + 1/n_2}}, \quad S^2_p = \frac{(n_1-1)S^2_1 + (n_2-1)S^2_2}{n_1 + n_2 -2}$
- 두 집단의 모 분산이 동일하지 않다는 가정
  $t = \frac{\bar{X_1}-\bar{X_2}}{ \sqrt{S^2_1/n_1 + S^2_2/n_2}}$

비모수 방법(nonparametric method)

표본이 정규분포를 따르는 모집단에서 추출되었다고 가정하기 어려운 경우
- 표본 수가 적은 경우
- 표본 수가 크지만 히스토그램으로 살펴본 결과 비대칭이고 이상치(outlier)가 많은 경우
모집단의 분포가 정규분포라는 가정 대신 단지 모집단의 자료가 연속형이고 분포는 대칭적이라는 최소한의 가정을 요구하는 통계적 방법
- 자료 값 자체 대신 자료의 sign이나 rank 사용
분포 가정이 약화되어 활용 범위가 넓어지는 대신 효율성 떨어짐
두 독립표본 t-검정에 대응하는 비모수적 방법: Mann-Whitney의 U-검정(Wilcoxon의 순위합검정, rank-sum test)

일원 분류 분산분석 (one-way analysis of variance)

연구 목적
- 관심이 있는 변수의 모평균이 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
- 둘 까지는 독립이표본 t-검정으로 가능
가정 (t-test 가정과 유사)
- 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
- 등분산성: 두 집단의 분산은 서로 동일하다.
- 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
분석의 흐름
- 반응 변수 변환: sample size는 크지만 정규성은 만족하지 않는 경우, log, box-cox 변환 등의 방법을 통해 변환
- 다중 비교: 평균이 달라 귀무가설을 기각하고 어떻게 다른지를 들여다 보는 것
- ANOVA 분석 후 잔차분석(residual analysis)을 통해서도 검증
분산의 구조적 분석을 통해 집단 간 평균 차이를 검정
- 전체 변동(Total Variation: SST)
  - 개별 반응값이 전체 평균으로부터 얼마나 퍼져 있나?
  - 전체 변동 = 집단간 변동 + 집단내 변동
- 집단간 변동(Between-group Variation: SSB)
  - 전체 변동 중 모형에 의해 설명되어지는 변동
  - 각 수준의 평균이 전체 평균으로부터 얼마나 퍼져 있나?
- 집단내 변동(Within-group Variation: SSW)
  - 전체 변동 중 모형에 의해 설명되어지는 변동
  - 개별 반응값이 각 수준의 평균으로부터 얼마나 퍼져 있나?

제곱합(sum of squares)의 분할

$\sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{i \centerdot} - \bar{y})^2 + \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y_{i \centerdot}})^2$

$\Leftrightarrow \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = n \sum_{i=1}^{t} (y_{i \centerdot} - \bar{y})^2 + \sum_{i=1}^{t} \sum_{j=1}^{n}(y_{ij} - \bar{y}_ {i \centerdot})^2$

$\bar{y} = \frac{1}{tn} \sum_{i=1}^{t} \sum_{j=1}^{n} y_{ij}, \quad \bar{y}_ {i \centerdot} = \frac{1}{n} \sum_{j=1}{n} y_{ij}$

SST=SSB+SSW
- 집단간 변동 $\uparrow$ & 집단내 변동 $\downarrow$ : 집단간 평균 차이 존재
- 집단간 변동 $\downarrow$ & 집단내 변동 $\uparrow$ : 집단간 평균 차이 비존재
- 검정통계량 = 집단간 평균 변동 / 집단내 평균 변동
  - 검정통계량 $\uparrow$ $\quad \Leftrightarrow$ 집단간 평균 차이가 유의할 가능성 $\uparrow$
검정 절차
- 해당 연구에 관한 귀무가설과 대립가설의 설정
  - 귀무가설: 모든 집단의 모평균은 동일하다.
  - 대립가설: 적어도 한 집단의 모평균은 다른 집단들과 다르다.
- 귀무가설 하에서의 검정 통계량 값을 계산
  - 집단간 평균 변동 = 집단간 변동 / (집단 수 - 1)
  - 집단내 평균 변동 = 집단내 변동 / (전체 개체 수 - 집단 수)
  - 검정통계량 = 집단간 평균 변동 / 집단 내 평균 변동
  - 검정통계량은 귀무가설 하에서 F-분포를 따른다.
    $F = \frac{SSB / (t-1)}{ SSW / t(n-1)} = \frac{MSB}{MSW} \quad \sim F(t-1, t(n-1))$
- 검정통계량의 분포를 이용해 계산된 P-값을 유의수준과 비교
- 귀무가설 기각 $\rightarrow$ 과연 어떤 집단들 사이에 평균 차이가 있는가?
- 다중비교(혹은 사후검정)
  - Bonferroni의 t-검정, Fisher의 LSD, Scheffe의 다중비교, Duncan의 다중범위검정, Tukey의 HSD 검정 등
  - Duncan (Liberal) $\Leftrightarrow$ Tukey (Conservative)
분산분석표(ANOVA Table)

변동 원인	자유도	제곱합SS	평균제곱	F 값	P 값
처리	$t-1$	$SSB$	$MSB=SSB/t-1$	$F=MSB/MSW$	$Pr(F^{*}t > F[t-2, t(n-1)]$
오차	$t(n-1)$	$SSW$	$MSW=SSW/t(n-1)$
전체	$nt -1$	$SST$

다중비교 (multiple comparison)

그룹간 평균 차이가 인정되는 경우, 어느 그룹간에 평균 차이가 유의한지 검정

Least Significant Difference(최소 유의 차)

두 집단간 평균 차이를 검정하는 독립표본 t-검정을 반복 실시
비교별 오류율을 제어하므로 실험별 오류율이 커지게 됨
Liberal

Bonferroni 검정법

실험별 오류율 제어
개별 비교시 유의수준이 지나치게 작게 되므로 검정력 떨어짐
Conservative

Tukey의 표준화 범위 검정(Studentized Range Test)

실험별 오류율을 제어하는 대표적 방법(표준화범위라 불리는 Q통계량 사용)
$Q = (\bar{y}_ {max} - \bar{y}_{min} ) / S _{\bar{y}}$
처리평균들간 차이가 $D=Q_a \sqrt{S^2 / n}$

Ducan의 다중범위 검정

매 단계마다 최소유의범위를 구하고 평균 차이와 비교하여 결론 내림

비모수적 일원 분류 분산분석 (Kruskal-Wallis' Test)

분석 목적
- 관심이 있는 변수의 분포가 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
- 귀무가설: 변수의 분포는 집단에 상관없이 동일하다.
- 대립가설: 적어도 한 집단의 분포는 다른 집단들과는 다르다.
정규성 또는 등분산성 가정 위배될 때
- 정규성 또는 등분산성을 만족하도록 자료 변환
- 비모수적 검정방법 사용
검정 과정
- 반응값에 대한 전체 순위(rank)를 매긴 후, 이 순위값을 One-way ANOVA의 분산분석 방법에 적용
- F 혻은 $\chi^2$ -검정통계얄과 이의 근사 분포를 통해 계산되는 P-값으로 가설 검정 수행

난괴법 (randomized block design)

교락요인(confounding factor, 반응 변수에 영향을 미치는 제어할 수 없/있는 요인)을 고려한 분석 및 실험 설계의 필요
step1. 블록 구상 - 유사한 실험 단위의 효과

step2. restricted randomizatio - 블록 안에서 randomization(임의화) 수행

block 내에서는 동질적, block 간에는 이질적
일반적으로 블록 요인은 관심사항 아님; two-way ANOVA와의 차이점

통계모형 비교

CRD
$y_{ij} = \mu + \tau_i + \epsilon_{ij} , \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2), \quad \sum_{i} \tau_i = 0$
$\tau_i : i번째 처리효과, \quad i=1, \dots, t, \quad j= 1, \dots, n$
RBD
$y_{ij} = \mu + \tau_i + \beta_{j} + \epsilon_{ij} , \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2), \quad \sum_{i} \tau_i = \sum_{j} \beta_j = 0$
$\beta_j : j번째 블록효과, \quad i=1, \dots, t, \quad j= 1, \dots, b$
Hypothesis for testing
$H_0 : \tau_i = \dots = \tau_t \quad H_1 : Not H_0$

ANOVA Table

변동 원인	자유도	제곱합SS	평균제곱	F 값
처리	$t-1$	$SSB$	$MSB$	$F=MSB/MSW$
블록	$b-1$	$SSBR$	$MSBR$	$F=MSBR/MSW$
오차	$(t-1)(b-1)$	$SSW$	$MSW$
전체	$bt -1$	$SST$

이원 분산분석 (two-way ANOVA)

요인실험(factorial design): 관심있는 요인(처리)이 둘 이상 있는 경우
요인의 효과: 요인의 각 수준에서의 평균 반응값의 차이
상호작용(Interaction effect)
- 두 요인이 독립적이지 않고 서로 영향을 미치는 경우
- 어떤 요인의 효과가 다른 요인의 수준에 따라 달라지는 경우
상호작용에 대한 그래프적 표현

상호작용이 없는 경우
- 평균반응값을 각 요인의 수준별로 plotting 해보는 것 필요
- 각 요인의 주효과를 이용한 실험 결과 해석
상호작용 존재하는 경우
- 해석시 주의
- 실험 목적과 수준별 효과의 부호에 따라 달라짐

Model

$y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_ {ij} + \epsilon_{ijk}, \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2)$
$\sum_{i} \alpha_i = \sum_{j} \beta_j = \sum_{i} (\alpha \beta)_ {ij} = \sum_{j} (\alpha \beta)_ {ij} =0$
$\alpha_i : i번째 A 요인 효과, \quad \beta_j : j번째 B 요인 효과, (\alpha \beta)_ {ij} : i번째 A, j번째 B 요인의 상호작용 효과$
$i=1, \dots, a, \quad j= 1, \dots, b, \quad k = 1, \dots, r$

제곱합 분할

$SST = SS_A + SS_B + SS_{AB} + SSW$
$abr - 1 = (a-1) +(b-1) + (a-1)(b-1) +ab(r-1)$

ANOVA Table

변동 원인	자유도	제곱합SS	평균제곱	F 값
요인 A	$a-1$	$SS_A$	$MS_A$	$F=MS_A/MSW$
요인 B	$b-1$	$SS_B$	$MS_B$	$F=MS_B/MSW$
상호작용	$(a-1)(b-1)$	$SS_{AB}$	$MS_{AB}$	$F=MS_{AB}/MSW$
오차	$ab(r-1)$	$SSW$	$MSW$
전체	$abr -1$	$SST$

공분산 분석 (Analysis of Covariance)

실험의 정밀도를 높이기 휘애(검정력을 높이기 위해) 비교 집단들 간에 존재하는 차이 중 공변량(연속형 변수)에 기인하는 근본적인 차이의 효과를 통제한 수 집단들을 비교하는 방법
분산분석 + 회귀분석
공변량: 처리요인이 아니면서 반응변수에 영향을 주는 요인
- 공변량이 그룹형이며 controllable: 블록 설계(covariate을 블록으로)
- 공변량이 연속형이며 uncontrollable: 공분산분석(ANCOVA)
uncontrollable 교락요인 제거
공분산분석은 분산분석이 주된 목적인 경우 주로 사용되면 이때 연속형의 설명변수는 교락요인일 수 있다.

Model

$y_{ij} = \mu + \tau_i + \beta(x_{ij} - \bar{x}) + \epsilon_{ij}, \quad \epsilon_{ijk} \sim \mathcal{N} (0, \sigma^2)$
$i=1, \dots, t, \quad j= 1, \dots, r, \quad k = 1, \dots, r, \quad \sum_{i} \tau_i = 0$

ANOVA Table

변동 원인	자유도	제곱합SS	평균제곱	F 값
공변량(x)	1	$SS_{REG}$	$MS_{REG}$	$F=MS_{REG}/MSW$
처리	$t-1$	$SSB$	$MSB$	$F=MSB/MSW$
오차	$t(r-1)-1$	$SSW$	$MSW$
전체	$tr -1$	$SST$

반복측정자료의 분산분석

하나의 관측단위로부터 두 번 이상의 측정을 통해 얻어진 자료
두 가지 중요 요인
- 환자내 효과(within-subject effect): 일종의 시간 효과
- 환자간 효과(between-subjects effect): 일종의 처리 효과
두 가지 관심 사항
- 각 처리의 평균값의 시간에 따른 변화
- 처리효과(처리 간 차이)의 시간에 따른 변화
일반적 통계분석과 가장 다른 점
- 일반적 통계 선형모형에서는 각 관측치의 오차항은 독립적이라는 가정이 필수적
- 반복측정 자료에서는
  - 각각의 환자들은 독립적
  - 한 환자 안에서의 측정치, 즉 같은 환자의 다른 시점에서 관측된 값들의 오차항 사이에는 상관관계가 존재한다고 가정
  - 일반적으로 한 환자 안의 값들 간의 상관관계는 관측 시점의 간격에 따라 다르게 가정
- 반복측정 자료분석의 주요 목적은 시간에 따른 처리 효과의 비교이지만 모형의 구축 단계에서는 이 상관관게 구조의 설정에 가장 많은 노력을 기울임. 상관관계 구조의 올바른 선택은 반복측정자료 분석에서 가장 중요한 과정

절차와 내용

Mauchly Test: 구형성(sphericity) 가정에 대한 검정 방법
구형성: 반복적으로 측정되는 자료들의 시차에 따른 분산이 동일하다는 가정

그룹간 차이 검정 (개체 간 검정): 집단들(종속변수) 간에 차이가 있는지 알아보는 검정 - ANOVA에서의 목적
시간 차이 검정: 종속변수가 시간의 차이에 따른 변화가 있는지 알아보는 검정 - 일반 ANOVA에서 불가능
시간과 그룹간 교호작용 검정: 겸정을 하는 그룹과 시간 사이에 교호작용이 있는지 없는지 해당 유의성 파악하는 검정

이원분산분석에서와 마찬가지로 교호작용의 통계적 유의성 우선 검토가 바람직

저작자표시 비영리 변경금지

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

패널자료분석(Panel Data Analysis) (1)	2020.03.04
선형회귀 및 로지스틱 회귀 (0)	2020.01.19
선형회귀분석 (0)	2020.01.13
기초통계이론 2 (0)	2020.01.12
기초통계이론 1 (0)	2020.01.10

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Lahong's Blog

분산분석 이론

개요

통계적 추론의 절차

실험 연구의 개요

독립 이표본 t-검정 (Independent two-sample t-test)

검정(testing)

비모수 방법(nonparametric method)

일원 분류 분산분석 (one-way analysis of variance)

제곱합(sum of squares)의 분할

다중비교 (multiple comparison)

비모수적 일원 분류 분산분석 (Kruskal-Wallis' Test)

난괴법 (randomized block design)

통계모형 비교

ANOVA Table

이원 분산분석 (two-way ANOVA)

Model

제곱합 분할

ANOVA Table

공분산 분석 (Analysis of Covariance)

Model

ANOVA Table

반복측정자료의 분산분석

절차와 내용

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

분산분석 이론

개요

통계적 추론의 절차

실험 연구의 개요

독립 이표본 t-검정 (Independent two-sample t-test)

검정(testing)

비모수 방법(nonparametric method)

일원 분류 분산분석 (one-way analysis of variance)

제곱합(sum of squares)의 분할

다중비교 (multiple comparison)

비모수적 일원 분류 분산분석 (Kruskal-Wallis' Test)

난괴법 (randomized block design)

통계모형 비교

ANOVA Table

이원 분산분석 (two-way ANOVA)

Model

제곱합 분할

ANOVA Table

공분산 분석 (Analysis of Covariance)

Model

ANOVA Table

반복측정자료의 분산분석

절차와 내용

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

'STATISTICS/고려대학교 통계연구소 2020 동계 통계워크샵' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역