하기 작성된 내용들은 2020년 1월 13일 고려대학교 통계연구소 동계 워크숍 김경희 교수님의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.
개요
통계적 추론의 절차
step1. State the problem : 통계 분석을 통해 얻고자 하는 정보, 즉 연구의 목적
step2. Decide what kind of data are relevant to the problem : 모집단, 표본, 요인, 변수의 결정
step3. Collect those data : sampling technique을 이용한 optimal sample로부터 data 수집
step4. Analyze the data, draw conclusions ny performing inferences for the problem of step1.
- 기술통계: 평균, 분산, 표, 그래프.
- 추론 통계: 가설검정, 구간 추정
실험 연구의 개요
- 실험 연구의 필요성
- 실험을 통해 관심 요인들과 반응에 대한 인과관계를 규명
- 제어할 수 없는 여러 요인들로 인한 어려움을 극복
- 실험 장치, 환경 요인의 변동 등을 감안
- 실험 연구의 목적
- 어떤 요인이 반응에 유의한 영향을 주는가?
- 측정 오차는 어느 정도인가?
- 유의한 영향을 미치는 원인들은 어떤 조건하에서 가장 바람직한 반응을 주는가?
- 실험 연구의 순서
- 실험 목적 설정 $\rightarrow$ 반응 변수, 요인, 수준 선택 $\rightarrow$ 실험 배치와 실험 순서 임의화 $\rightarrow$ 실험 시행 $\rightarrow$ 자료 분석 $\rightarrow$ 분석 결과의 해석과 조치
- 분산분석은 반응변수가 연속형, 인자/요인이 범주형일 때 쓰는 방법
독립 이표본 t-검정 (Independent two-sample t-test)
- 비교하고자 하는 그룹이 두 개인 경우
- 연구목적 : 관심이 있는 변수의 모평균이 독립적인 두 집단간에 서로 차이가 있는가
- 가정
- 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
- 등분산성: 두 집단의 분산은 서로 동일하다.
- 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
- 이론적 배경
- 두 집단의 모평균이 동일하다면 차이는 0일 것이다.
- 두 집단의 모평균이 동일하다는 가정 하에서 표본평균들의 차이는 정규분포를 따른다.
- 표본평균들의 차이로부터 계산된 검정통계량은 t-분포를 따른다.
- 표본의 차이가 통계적으로 유의(significant)한가?
검정(testing)
- 검정절차
- 해당 연구에 관한 귀무가설(두 집단의 모평균은 동일하다)과 대립가설두 집단의 모평균은 동일하지 않다)의 설정
- 귀무가설 하에서 검정통계량 값 계산
- 두 집단의 해당 변수에 대한 분산이 동일한가?
검정통계량 = 표본 평균의 차이 / 표준 오차
- 두 집단의 해당 변수에 대한 분산이 동일한가?
- 검정통계량의 분포를 이용해 계산된 p-값을 유의 수준과 비교
- 유의수준은 p-값과의 비교를 위해 사전 결정해야 하는 수치로 이해
- 귀무가설이 사실일 때 이를 기각하는 오류가 의사결절에 미치는 영향에 따라 이를 결정
- 일반적으로 $\alpha$ = 0.05 또는 0.01이 사용
- 최종적으로 합리적인 의사결정 수립
- p-값 > 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 없으므로 귀무가설을 기각할 수 없다.
- p-값 < 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 있으므로 귀무가설을 기각한다.
- 검정통계량
- 두 집단의 모 분산이 동일하다는 가정
$$ t = \frac{\bar{X_1}-\bar{X_2}}{S_p \sqrt{1/n_1 + 1/n_2}}, \quad S^2_p = \frac{(n_1-1)S^2_1 + (n_2-1)S^2_2}{n_1 + n_2 -2} $$ - 두 집단의 모 분산이 동일하지 않다는 가정
$$ t = \frac{\bar{X_1}-\bar{X_2}}{ \sqrt{S^2_1/n_1 + S^2_2/n_2}}$$
- 두 집단의 모 분산이 동일하다는 가정
비모수 방법(nonparametric method)
- 표본이 정규분포를 따르는 모집단에서 추출되었다고 가정하기 어려운 경우
- 표본 수가 적은 경우
- 표본 수가 크지만 히스토그램으로 살펴본 결과 비대칭이고 이상치(outlier)가 많은 경우
- 모집단의 분포가 정규분포라는 가정 대신 단지 모집단의 자료가 연속형이고 분포는 대칭적이라는 최소한의 가정을 요구하는 통계적 방법
- 자료 값 자체 대신 자료의 sign이나 rank 사용
- 분포 가정이 약화되어 활용 범위가 넓어지는 대신 효율성 떨어짐
- 두 독립표본 t-검정에 대응하는 비모수적 방법: Mann-Whitney의 U-검정(Wilcoxon의 순위합검정, rank-sum test)
일원 분류 분산분석 (one-way analysis of variance)
- 연구 목적
- 관심이 있는 변수의 모평균이 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
- 둘 까지는 독립이표본 t-검정으로 가능
- 가정 (t-test 가정과 유사)
- 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
- 등분산성: 두 집단의 분산은 서로 동일하다.
- 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
- 분석의 흐름
- 반응 변수 변환: sample size는 크지만 정규성은 만족하지 않는 경우, log, box-cox 변환 등의 방법을 통해 변환
- 다중 비교: 평균이 달라 귀무가설을 기각하고 어떻게 다른지를 들여다 보는 것
- ANOVA 분석 후 잔차분석(residual analysis)을 통해서도 검증
- 분산의 구조적 분석을 통해 집단 간 평균 차이를 검정
- 전체 변동(Total Variation: SST)
- 개별 반응값이 전체 평균으로부터 얼마나 퍼져 있나?
- 전체 변동 = 집단간 변동 + 집단내 변동
- 집단간 변동(Between-group Variation: SSB)
- 전체 변동 중 모형에 의해 설명되어지는 변동
- 각 수준의 평균이 전체 평균으로부터 얼마나 퍼져 있나?
- 집단내 변동(Within-group Variation: SSW)
- 전체 변동 중 모형에 의해 설명되어지는 변동
- 개별 반응값이 각 수준의 평균으로부터 얼마나 퍼져 있나?
- 전체 변동(Total Variation: SST)
제곱합(sum of squares)의 분할
$$ \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{i \centerdot} - \bar{y})^2 + \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y_{i \centerdot}})^2 $$
$$ \Leftrightarrow \sum_{i=1}^{t} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = n \sum_{i=1}^{t} (y_{i \centerdot} - \bar{y})^2 + \sum_{i=1}^{t} \sum_{j=1}^{n}(y_{ij} - \bar{y}_ {i \centerdot})^2 $$
$$ \bar{y} = \frac{1}{tn} \sum_{i=1}^{t} \sum_{j=1}^{n} y_{ij}, \quad \bar{y}_ {i \centerdot} = \frac{1}{n} \sum_{j=1}{n} y_{ij}$$
- $ SST = SSB + SSW $
- 집단간 변동 $\uparrow$ & 집단내 변동 $\downarrow $ : 집단간 평균 차이 존재
- 집단간 변동 $\downarrow $ & 집단내 변동 $\uparrow $ : 집단간 평균 차이 비존재
- 검정통계량 = 집단간 평균 변동 / 집단내 평균 변동
- 검정통계량 $\uparrow $ $\quad \Leftrightarrow $ 집단간 평균 차이가 유의할 가능성 $\uparrow$
- 검정 절차
- 해당 연구에 관한 귀무가설과 대립가설의 설정
- 귀무가설: 모든 집단의 모평균은 동일하다.
- 대립가설: 적어도 한 집단의 모평균은 다른 집단들과 다르다.
- 귀무가설 하에서의 검정 통계량 값을 계산
- 집단간 평균 변동 = 집단간 변동 / (집단 수 - 1)
- 집단내 평균 변동 = 집단내 변동 / (전체 개체 수 - 집단 수)
- 검정통계량 = 집단간 평균 변동 / 집단 내 평균 변동
- 검정통계량은 귀무가설 하에서 F-분포를 따른다.
$$ F = \frac{SSB / (t-1)}{ SSW / t(n-1)} = \frac{MSB}{MSW} \quad \sim F(t-1, t(n-1))$$
- 검정통계량의 분포를 이용해 계산된 P-값을 유의수준과 비교
- 귀무가설 기각 $ \rightarrow$ 과연 어떤 집단들 사이에 평균 차이가 있는가?
- 다중비교(혹은 사후검정)
- Bonferroni의 t-검정, Fisher의 LSD, Scheffe의 다중비교, Duncan의 다중범위검정, Tukey의 HSD 검정 등
- Duncan (Liberal) $ \Leftrightarrow$ Tukey (Conservative)
- 해당 연구에 관한 귀무가설과 대립가설의 설정
- 분산분석표(ANOVA Table)
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
처리 | $t-1$ | $SSB $ | $ MSB=SSB/t-1 $ | $F=MSB/MSW $ | $Pr(F^{*}t > F[t-2, t(n-1)]$ |
오차 | $t(n-1) $ | $SSW$ | $MSW=SSW/t(n-1)$ | ||
전체 | $nt -1$ | $SST $ |
다중비교 (multiple comparison)
- 그룹간 평균 차이가 인정되는 경우, 어느 그룹간에 평균 차이가 유의한지 검정
- Least Significant Difference(최소 유의 차)
- 두 집단간 평균 차이를 검정하는 독립표본 t-검정을 반복 실시
- 비교별 오류율을 제어하므로 실험별 오류율이 커지게 됨
- Liberal
- Bonferroni 검정법
- 실험별 오류율 제어
- 개별 비교시 유의수준이 지나치게 작게 되므로 검정력 떨어짐
- Conservative
- Tukey의 표준화 범위 검정(Studentized Range Test)
- 실험별 오류율을 제어하는 대표적 방법(표준화범위라 불리는 Q통계량 사용)
- $ Q = (\bar{y}_ {max} - \bar{y}_{min} ) / S _{\bar{y}}$
- 처리평균들간 차이가 $D=Q_a \sqrt{S^2 / n}$
- Ducan의 다중범위 검정
- 매 단계마다 최소유의범위를 구하고 평균 차이와 비교하여 결론 내림
비모수적 일원 분류 분산분석 (Kruskal-Wallis' Test)
- 분석 목적
- 관심이 있는 변수의 분포가 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
- 귀무가설: 변수의 분포는 집단에 상관없이 동일하다.
- 대립가설: 적어도 한 집단의 분포는 다른 집단들과는 다르다.
- 정규성 또는 등분산성 가정 위배될 때
- 정규성 또는 등분산성을 만족하도록 자료 변환
- 비모수적 검정방법 사용
- 검정 과정
- 반응값에 대한 전체 순위(rank)를 매긴 후, 이 순위값을 One-way ANOVA의 분산분석 방법에 적용
- F 혻은 $\chi^2$-검정통계얄과 이의 근사 분포를 통해 계산되는 P-값으로 가설 검정 수행
난괴법 (randomized block design)
- 교락요인(confounding factor, 반응 변수에 영향을 미치는 제어할 수 없/있는 요인)을 고려한 분석 및 실험 설계의 필요
step1. 블록 구상 - 유사한 실험 단위의 효과
step2. restricted randomizatio - 블록 안에서 randomization(임의화) 수행
- block 내에서는 동질적, block 간에는 이질적
- 일반적으로 블록 요인은 관심사항 아님; two-way ANOVA와의 차이점
통계모형 비교
- CRD
$$ y_{ij} = \mu + \tau_i + \epsilon_{ij} , \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2), \quad \sum_{i} \tau_i = 0 $$
$$ \tau_i : i번째 처리효과, \quad i=1, \dots, t, \quad j= 1, \dots, n $$ - RBD
$$ y_{ij} = \mu + \tau_i + \beta_{j} + \epsilon_{ij} , \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2), \quad \sum_{i} \tau_i = \sum_{j} \beta_j = 0 $$
$$ \beta_j : j번째 블록효과, \quad i=1, \dots, t, \quad j= 1, \dots, b $$ - Hypothesis for testing
$$ H_0 : \tau_i = \dots = \tau_t \quad H_1 : Not H_0 $$
ANOVA Table
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
처리 | $ t-1$ | $SSB$ | $ MSB $ | $F=MSB/MSW$ | |
블록 | $b-1 $ | $SSBR $ | $MSBR$ | $F=MSBR/MSW $ | |
오차 | $(t-1)(b-1)$ | $SSW $ | $MSW $ | ||
전체 | $bt -1$ | $ SST$ |
이원 분산분석 (two-way ANOVA)
- 요인실험(factorial design): 관심있는 요인(처리)이 둘 이상 있는 경우
- 요인의 효과: 요인의 각 수준에서의 평균 반응값의 차이
- 상호작용(Interaction effect)
- 두 요인이 독립적이지 않고 서로 영향을 미치는 경우
- 어떤 요인의 효과가 다른 요인의 수준에 따라 달라지는 경우
- 상호작용에 대한 그래프적 표현
- 상호작용이 없는 경우
- 평균반응값을 각 요인의 수준별로 plotting 해보는 것 필요
- 각 요인의 주효과를 이용한 실험 결과 해석
- 상호작용 존재하는 경우
- 해석시 주의
- 실험 목적과 수준별 효과의 부호에 따라 달라짐
Model
$$ y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_ {ij} + \epsilon_{ijk}, \quad \epsilon_{ij} \sim \mathcal{N} (0, \sigma^2)$$
$$ \sum_{i} \alpha_i = \sum_{j} \beta_j = \sum_{i} (\alpha \beta)_ {ij} = \sum_{j} (\alpha \beta)_ {ij} =0 $$
$$ \alpha_i : i번째 A 요인 효과, \quad \beta_j : j번째 B 요인 효과, (\alpha \beta)_ {ij} : i번째 A, j번째 B 요인의 상호작용 효과$$
$$ i=1, \dots, a, \quad j= 1, \dots, b, \quad k = 1, \dots, r $$
제곱합 분할
$$ SST = SS_A + SS_B + SS_{AB} + SSW $$
$$ abr - 1 = (a-1) +(b-1) + (a-1)(b-1) +ab(r-1)$$
ANOVA Table
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
요인 A | $a-1$ | $SS_A$ | $MS_A$ | $F=MS_A/MSW$ | |
요인 B | $b-1$ | $SS_B$ | $MS_B $ | $F=MS_B/MSW $ | |
상호작용 | $(a-1)(b-1)$ | $SS_{AB}$ | $MS_{AB}$ | $F=MS_{AB}/MSW$ | |
오차 | $ab(r-1)$ | $SSW $ | $MSW $ | ||
전체 | $abr -1 $ | $SST$ |
공분산 분석 (Analysis of Covariance)
- 실험의 정밀도를 높이기 휘애(검정력을 높이기 위해) 비교 집단들 간에 존재하는 차이 중 공변량(연속형 변수)에 기인하는 근본적인 차이의 효과를 통제한 수 집단들을 비교하는 방법
- 분산분석 + 회귀분석
- 공변량: 처리요인이 아니면서 반응변수에 영향을 주는 요인
- 공변량이 그룹형이며 controllable: 블록 설계(covariate을 블록으로)
- 공변량이 연속형이며 uncontrollable: 공분산분석(ANCOVA)
- uncontrollable 교락요인 제거
- 공분산분석은 분산분석이 주된 목적인 경우 주로 사용되면 이때 연속형의 설명변수는 교락요인일 수 있다.
Model
$$ y_{ij} = \mu + \tau_i + \beta(x_{ij} - \bar{x}) + \epsilon_{ij}, \quad \epsilon_{ijk} \sim \mathcal{N} (0, \sigma^2)$$
$$ i=1, \dots, t, \quad j= 1, \dots, r, \quad k = 1, \dots, r, \quad \sum_{i} \tau_i = 0 $$
ANOVA Table
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
공변량(x) | 1 | $SS_{REG}$ | $MS_{REG}$ | $F=MS_{REG}/MSW $ | |
처리 | $t-1$ | $SSB$ | $ MSB$ | $F=MSB/MSW$ | |
오차 | $t(r-1)-1$ | $ SSW $ | $MSW $ | ||
전체 | $tr -1 $ | $SST$ |
반복측정자료의 분산분석
- 하나의 관측단위로부터 두 번 이상의 측정을 통해 얻어진 자료
- 두 가지 중요 요인
- 환자내 효과(within-subject effect): 일종의 시간 효과
- 환자간 효과(between-subjects effect): 일종의 처리 효과
- 두 가지 관심 사항
- 각 처리의 평균값의 시간에 따른 변화
- 처리효과(처리 간 차이)의 시간에 따른 변화
- 일반적 통계분석과 가장 다른 점
- 일반적 통계 선형모형에서는 각 관측치의 오차항은 독립적이라는 가정이 필수적
- 반복측정 자료에서는
- 각각의 환자들은 독립적
- 한 환자 안에서의 측정치, 즉 같은 환자의 다른 시점에서 관측된 값들의 오차항 사이에는 상관관계가 존재한다고 가정
- 일반적으로 한 환자 안의 값들 간의 상관관계는 관측 시점의 간격에 따라 다르게 가정
- 반복측정 자료분석의 주요 목적은 시간에 따른 처리 효과의 비교이지만 모형의 구축 단계에서는 이 상관관게 구조의 설정에 가장 많은 노력을 기울임. 상관관계 구조의 올바른 선택은 반복측정자료 분석에서 가장 중요한 과정
절차와 내용
- Mauchly Test: 구형성(sphericity) 가정에 대한 검정 방법
- 구형성: 반복적으로 측정되는 자료들의 시차에 따른 분산이 동일하다는 가정
- 그룹간 차이 검정 (개체 간 검정): 집단들(종속변수) 간에 차이가 있는지 알아보는 검정 - ANOVA에서의 목적
- 시간 차이 검정: 종속변수가 시간의 차이에 따른 변화가 있는지 알아보는 검정 - 일반 ANOVA에서 불가능
- 시간과 그룹간 교호작용 검정: 겸정을 하는 그룹과 시간 사이에 교호작용이 있는지 없는지 해당 유의성 파악하는 검정
- 이원분산분석에서와 마찬가지로 교호작용의 통계적 유의성 우선 검토가 바람직
'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글
패널자료분석(Panel Data Analysis) (1) | 2020.03.04 |
---|---|
선형회귀 및 로지스틱 회귀 (0) | 2020.01.19 |
선형회귀분석 (0) | 2020.01.13 |
기초통계이론 2 (0) | 2020.01.12 |
기초통계이론 1 (0) | 2020.01.10 |