하기 작성된 내용들은 2020년 1월 13일 고려대학교 통계연구소 동계 워크숍 김경희 교수님의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.
개요
통계적 추론의 절차
step1. State the problem : 통계 분석을 통해 얻고자 하는 정보, 즉 연구의 목적
step2. Decide what kind of data are relevant to the problem : 모집단, 표본, 요인, 변수의 결정
step3. Collect those data : sampling technique을 이용한 optimal sample로부터 data 수집
step4. Analyze the data, draw conclusions ny performing inferences for the problem of step1.
- 기술통계: 평균, 분산, 표, 그래프.
- 추론 통계: 가설검정, 구간 추정
실험 연구의 개요
- 실험 연구의 필요성
- 실험을 통해 관심 요인들과 반응에 대한 인과관계를 규명
- 제어할 수 없는 여러 요인들로 인한 어려움을 극복
- 실험 장치, 환경 요인의 변동 등을 감안
- 실험 연구의 목적
- 어떤 요인이 반응에 유의한 영향을 주는가?
- 측정 오차는 어느 정도인가?
- 유의한 영향을 미치는 원인들은 어떤 조건하에서 가장 바람직한 반응을 주는가?
- 실험 연구의 순서
- 실험 목적 설정 → 반응 변수, 요인, 수준 선택 → 실험 배치와 실험 순서 임의화 → 실험 시행 → 자료 분석 → 분석 결과의 해석과 조치
- 분산분석은 반응변수가 연속형, 인자/요인이 범주형일 때 쓰는 방법
독립 이표본 t-검정 (Independent two-sample t-test)
- 비교하고자 하는 그룹이 두 개인 경우
- 연구목적 : 관심이 있는 변수의 모평균이 독립적인 두 집단간에 서로 차이가 있는가
- 가정
- 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
- 등분산성: 두 집단의 분산은 서로 동일하다.
- 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
- 이론적 배경
- 두 집단의 모평균이 동일하다면 차이는 0일 것이다.
- 두 집단의 모평균이 동일하다는 가정 하에서 표본평균들의 차이는 정규분포를 따른다.
- 표본평균들의 차이로부터 계산된 검정통계량은 t-분포를 따른다.
- 표본의 차이가 통계적으로 유의(significant)한가?
검정(testing)
- 검정절차
- 해당 연구에 관한 귀무가설(두 집단의 모평균은 동일하다)과 대립가설두 집단의 모평균은 동일하지 않다)의 설정
- 귀무가설 하에서 검정통계량 값 계산
- 두 집단의 해당 변수에 대한 분산이 동일한가?
검정통계량 = 표본 평균의 차이 / 표준 오차
- 두 집단의 해당 변수에 대한 분산이 동일한가?
- 검정통계량의 분포를 이용해 계산된 p-값을 유의 수준과 비교
- 유의수준은 p-값과의 비교를 위해 사전 결정해야 하는 수치로 이해
- 귀무가설이 사실일 때 이를 기각하는 오류가 의사결절에 미치는 영향에 따라 이를 결정
- 일반적으로 α = 0.05 또는 0.01이 사용
- 최종적으로 합리적인 의사결정 수립
- p-값 > 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 없으므로 귀무가설을 기각할 수 없다.
- p-값 < 유의수준: 주어진 유의수준 하에서 귀무가설을 기각할만한 충분한 증거가 있으므로 귀무가설을 기각한다.
- 검정통계량
- 두 집단의 모 분산이 동일하다는 가정
t=¯X1−¯X2Sp√1/n1+1/n2,S2p=(n1−1)S21+(n2−1)S22n1+n2−2 - 두 집단의 모 분산이 동일하지 않다는 가정
t=¯X1−¯X2√S21/n1+S22/n2
- 두 집단의 모 분산이 동일하다는 가정
비모수 방법(nonparametric method)
- 표본이 정규분포를 따르는 모집단에서 추출되었다고 가정하기 어려운 경우
- 표본 수가 적은 경우
- 표본 수가 크지만 히스토그램으로 살펴본 결과 비대칭이고 이상치(outlier)가 많은 경우
- 모집단의 분포가 정규분포라는 가정 대신 단지 모집단의 자료가 연속형이고 분포는 대칭적이라는 최소한의 가정을 요구하는 통계적 방법
- 자료 값 자체 대신 자료의 sign이나 rank 사용
- 분포 가정이 약화되어 활용 범위가 넓어지는 대신 효율성 떨어짐
- 두 독립표본 t-검정에 대응하는 비모수적 방법: Mann-Whitney의 U-검정(Wilcoxon의 순위합검정, rank-sum test)
일원 분류 분산분석 (one-way analysis of variance)
- 연구 목적
- 관심이 있는 변수의 모평균이 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
- 둘 까지는 독립이표본 t-검정으로 가능
- 가정 (t-test 가정과 유사)
- 정규성: 해당 변수는 각 집단별로 정규분포를 따른다.
- 등분산성: 두 집단의 분산은 서로 동일하다.
- 표본의 수는 정규성 가정 및 등분산성 가정을 검토할 수 있을 정도로 충분히 크다.
- 분석의 흐름
- 반응 변수 변환: sample size는 크지만 정규성은 만족하지 않는 경우, log, box-cox 변환 등의 방법을 통해 변환
- 다중 비교: 평균이 달라 귀무가설을 기각하고 어떻게 다른지를 들여다 보는 것
- ANOVA 분석 후 잔차분석(residual analysis)을 통해서도 검증
- 분산의 구조적 분석을 통해 집단 간 평균 차이를 검정
- 전체 변동(Total Variation: SST)
- 개별 반응값이 전체 평균으로부터 얼마나 퍼져 있나?
- 전체 변동 = 집단간 변동 + 집단내 변동
- 집단간 변동(Between-group Variation: SSB)
- 전체 변동 중 모형에 의해 설명되어지는 변동
- 각 수준의 평균이 전체 평균으로부터 얼마나 퍼져 있나?
- 집단내 변동(Within-group Variation: SSW)
- 전체 변동 중 모형에 의해 설명되어지는 변동
- 개별 반응값이 각 수준의 평균으로부터 얼마나 퍼져 있나?
- 전체 변동(Total Variation: SST)
제곱합(sum of squares)의 분할
t∑i=1n∑j=1(yij−ˉy)2=t∑i=1n∑j=1(yi⋅−ˉy)2+t∑i=1n∑j=1(yij−¯yi⋅)2
⇔t∑i=1n∑j=1(yij−ˉy)2=nt∑i=1(yi⋅−ˉy)2+t∑i=1n∑j=1(yij−ˉyi⋅)2
ˉy=1tnt∑i=1n∑j=1yij,ˉyi⋅=1n∑j=1nyij
- SST=SSB+SSW
- 집단간 변동 ↑ & 집단내 변동 ↓ : 집단간 평균 차이 존재
- 집단간 변동 ↓ & 집단내 변동 ↑ : 집단간 평균 차이 비존재
- 검정통계량 = 집단간 평균 변동 / 집단내 평균 변동
- 검정통계량 ↑ ⇔ 집단간 평균 차이가 유의할 가능성 ↑
- 검정 절차
- 해당 연구에 관한 귀무가설과 대립가설의 설정
- 귀무가설: 모든 집단의 모평균은 동일하다.
- 대립가설: 적어도 한 집단의 모평균은 다른 집단들과 다르다.
- 귀무가설 하에서의 검정 통계량 값을 계산
- 집단간 평균 변동 = 집단간 변동 / (집단 수 - 1)
- 집단내 평균 변동 = 집단내 변동 / (전체 개체 수 - 집단 수)
- 검정통계량 = 집단간 평균 변동 / 집단 내 평균 변동
- 검정통계량은 귀무가설 하에서 F-분포를 따른다.
F=SSB/(t−1)SSW/t(n−1)=MSBMSW∼F(t−1,t(n−1))
- 검정통계량의 분포를 이용해 계산된 P-값을 유의수준과 비교
- 귀무가설 기각 → 과연 어떤 집단들 사이에 평균 차이가 있는가?
- 다중비교(혹은 사후검정)
- Bonferroni의 t-검정, Fisher의 LSD, Scheffe의 다중비교, Duncan의 다중범위검정, Tukey의 HSD 검정 등
- Duncan (Liberal) ⇔ Tukey (Conservative)
- 해당 연구에 관한 귀무가설과 대립가설의 설정
- 분산분석표(ANOVA Table)
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
처리 | t−1 | SSB | MSB=SSB/t−1 | F=MSB/MSW | Pr(F∗t>F[t−2,t(n−1)] |
오차 | t(n−1) | SSW | MSW=SSW/t(n−1) | ||
전체 | nt−1 | SST |
다중비교 (multiple comparison)
- 그룹간 평균 차이가 인정되는 경우, 어느 그룹간에 평균 차이가 유의한지 검정
- Least Significant Difference(최소 유의 차)
- 두 집단간 평균 차이를 검정하는 독립표본 t-검정을 반복 실시
- 비교별 오류율을 제어하므로 실험별 오류율이 커지게 됨
- Liberal
- Bonferroni 검정법
- 실험별 오류율 제어
- 개별 비교시 유의수준이 지나치게 작게 되므로 검정력 떨어짐
- Conservative
- Tukey의 표준화 범위 검정(Studentized Range Test)
- 실험별 오류율을 제어하는 대표적 방법(표준화범위라 불리는 Q통계량 사용)
- Q=(ˉymax−ˉymin)/Sˉy
- 처리평균들간 차이가 D=Qa√S2/n
- Ducan의 다중범위 검정
- 매 단계마다 최소유의범위를 구하고 평균 차이와 비교하여 결론 내림
비모수적 일원 분류 분산분석 (Kruskal-Wallis' Test)
- 분석 목적
- 관심이 있는 변수의 분포가 독립적인 셋 이상의 집단 간에 서로 차이가 있는가?
- 귀무가설: 변수의 분포는 집단에 상관없이 동일하다.
- 대립가설: 적어도 한 집단의 분포는 다른 집단들과는 다르다.
- 정규성 또는 등분산성 가정 위배될 때
- 정규성 또는 등분산성을 만족하도록 자료 변환
- 비모수적 검정방법 사용
- 검정 과정
- 반응값에 대한 전체 순위(rank)를 매긴 후, 이 순위값을 One-way ANOVA의 분산분석 방법에 적용
- F 혻은 χ2-검정통계얄과 이의 근사 분포를 통해 계산되는 P-값으로 가설 검정 수행
난괴법 (randomized block design)
- 교락요인(confounding factor, 반응 변수에 영향을 미치는 제어할 수 없/있는 요인)을 고려한 분석 및 실험 설계의 필요
step1. 블록 구상 - 유사한 실험 단위의 효과
step2. restricted randomizatio - 블록 안에서 randomization(임의화) 수행
- block 내에서는 동질적, block 간에는 이질적
- 일반적으로 블록 요인은 관심사항 아님; two-way ANOVA와의 차이점
통계모형 비교
- CRD
yij=μ+τi+ϵij,ϵij∼N(0,σ2),∑iτi=0
τi:i번째처리효과,i=1,…,t,j=1,…,n - RBD
yij=μ+τi+βj+ϵij,ϵij∼N(0,σ2),∑iτi=∑jβj=0
βj:j번째블록효과,i=1,…,t,j=1,…,b - Hypothesis for testing
H0:τi=⋯=τtH1:NotH0
ANOVA Table
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
처리 | t−1 | SSB | MSB | F=MSB/MSW | |
블록 | b−1 | SSBR | MSBR | F=MSBR/MSW | |
오차 | (t−1)(b−1) | SSW | MSW | ||
전체 | bt−1 | SST |
이원 분산분석 (two-way ANOVA)
- 요인실험(factorial design): 관심있는 요인(처리)이 둘 이상 있는 경우
- 요인의 효과: 요인의 각 수준에서의 평균 반응값의 차이
- 상호작용(Interaction effect)
- 두 요인이 독립적이지 않고 서로 영향을 미치는 경우
- 어떤 요인의 효과가 다른 요인의 수준에 따라 달라지는 경우
- 상호작용에 대한 그래프적 표현

- 상호작용이 없는 경우
- 평균반응값을 각 요인의 수준별로 plotting 해보는 것 필요
- 각 요인의 주효과를 이용한 실험 결과 해석
- 상호작용 존재하는 경우
- 해석시 주의
- 실험 목적과 수준별 효과의 부호에 따라 달라짐
Model
yijk=μ+αi+βj+(αβ)ij+ϵijk,ϵij∼N(0,σ2)
∑iαi=∑jβj=∑i(αβ)ij=∑j(αβ)ij=0
αi:i번째A요인효과,βj:j번째B요인효과,(αβ)ij:i번째A,j번째B요인의상호작용효과
i=1,…,a,j=1,…,b,k=1,…,r
제곱합 분할
SST=SSA+SSB+SSAB+SSW
abr−1=(a−1)+(b−1)+(a−1)(b−1)+ab(r−1)
ANOVA Table
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
요인 A | a−1 | SSA | MSA | F=MSA/MSW | |
요인 B | b−1 | SSB | MSB | F=MSB/MSW | |
상호작용 | (a−1)(b−1) | SSAB | MSAB | F=MSAB/MSW | |
오차 | ab(r−1) | SSW | MSW | ||
전체 | abr−1 | SST |
공분산 분석 (Analysis of Covariance)
- 실험의 정밀도를 높이기 휘애(검정력을 높이기 위해) 비교 집단들 간에 존재하는 차이 중 공변량(연속형 변수)에 기인하는 근본적인 차이의 효과를 통제한 수 집단들을 비교하는 방법
- 분산분석 + 회귀분석
- 공변량: 처리요인이 아니면서 반응변수에 영향을 주는 요인
- 공변량이 그룹형이며 controllable: 블록 설계(covariate을 블록으로)
- 공변량이 연속형이며 uncontrollable: 공분산분석(ANCOVA)
- uncontrollable 교락요인 제거
- 공분산분석은 분산분석이 주된 목적인 경우 주로 사용되면 이때 연속형의 설명변수는 교락요인일 수 있다.
Model
yij=μ+τi+β(xij−ˉx)+ϵij,ϵijk∼N(0,σ2)
i=1,…,t,j=1,…,r,k=1,…,r,∑iτi=0
ANOVA Table
변동 원인 | 자유도 | 제곱합SS | 평균제곱 | F 값 | P 값 |
---|---|---|---|---|---|
공변량(x) | 1 | SSREG | MSREG | F=MSREG/MSW | |
처리 | t−1 | SSB | MSB | F=MSB/MSW | |
오차 | t(r−1)−1 | SSW | MSW | ||
전체 | tr−1 | SST |
반복측정자료의 분산분석
- 하나의 관측단위로부터 두 번 이상의 측정을 통해 얻어진 자료
- 두 가지 중요 요인
- 환자내 효과(within-subject effect): 일종의 시간 효과
- 환자간 효과(between-subjects effect): 일종의 처리 효과
- 두 가지 관심 사항
- 각 처리의 평균값의 시간에 따른 변화
- 처리효과(처리 간 차이)의 시간에 따른 변화
- 일반적 통계분석과 가장 다른 점
- 일반적 통계 선형모형에서는 각 관측치의 오차항은 독립적이라는 가정이 필수적
- 반복측정 자료에서는
- 각각의 환자들은 독립적
- 한 환자 안에서의 측정치, 즉 같은 환자의 다른 시점에서 관측된 값들의 오차항 사이에는 상관관계가 존재한다고 가정
- 일반적으로 한 환자 안의 값들 간의 상관관계는 관측 시점의 간격에 따라 다르게 가정
- 반복측정 자료분석의 주요 목적은 시간에 따른 처리 효과의 비교이지만 모형의 구축 단계에서는 이 상관관게 구조의 설정에 가장 많은 노력을 기울임. 상관관계 구조의 올바른 선택은 반복측정자료 분석에서 가장 중요한 과정
절차와 내용

- Mauchly Test: 구형성(sphericity) 가정에 대한 검정 방법
- 구형성: 반복적으로 측정되는 자료들의 시차에 따른 분산이 동일하다는 가정
- 그룹간 차이 검정 (개체 간 검정): 집단들(종속변수) 간에 차이가 있는지 알아보는 검정 - ANOVA에서의 목적
- 시간 차이 검정: 종속변수가 시간의 차이에 따른 변화가 있는지 알아보는 검정 - 일반 ANOVA에서 불가능
- 시간과 그룹간 교호작용 검정: 겸정을 하는 그룹과 시간 사이에 교호작용이 있는지 없는지 해당 유의성 파악하는 검정
- 이원분산분석에서와 마찬가지로 교호작용의 통계적 유의성 우선 검토가 바람직
'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글
패널자료분석(Panel Data Analysis) (1) | 2020.03.04 |
---|---|
선형회귀 및 로지스틱 회귀 (0) | 2020.01.19 |
선형회귀분석 (0) | 2020.01.13 |
기초통계이론 2 (0) | 2020.01.12 |
기초통계이론 1 (0) | 2020.01.10 |