하기 작성된 내용들은 2020년 1월 7일 고려대학교 통계연구소 동계 워크숍 송성주 교수님의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.
비교 분석
일표본 t-검정
- t-검정
- $\mu$를 검정(추정)하는데 $\sigma$를 아는 경우는 현실적으로 드뭄
- 대부분 $S$ 사용
- Nomal distribution과 비슷하지만 분산이 더 큼
- 모집단이 정규분포 또는 n이 큰 경우 사용 가능 (표본의 크기가 작은 경우 정규성 확인 후 적용)
- 가설
- $ H_0 : \mu = \mu_0 \quad \quad H_1 : \mu \neq \mu_0 $
- $ H_0 : \mu = \mu_0 $의 가설을 모평균이 $\mu$(unknown)이고 $\sigma$(unknown)인 정규분포에서 뽑힌 크기 n인 랜덤표본으로부터 검정하고자 할 때 사용
- 귀무가설 하에서 다음의 검정통계량은 자유도 n-1의 t-분포를 따름
$$ t = \dfrac {\bar{X}-\mu_0} {\frac{S}{\sqrt{n}}} \sim t_{n-1} $$ - 이 검정통계량 값을 t분포의 값과 비교하여 p-value를 구하고 결론을 내림
- 단측검정
$ H_a : \mu > \mu_0 \rightarrow P(T \geq t) $
$ H_a : \mu < \mu_0 \rightarrow P(T \leq t) $ - 양측검정
$ H_a : \mu \neq \mu_0 \rightarrow 2P(T \geq |t|) $
단측검정보다 유의확률 2배
- 단측검정
독립 이표본 검정
독립된 두 집단의 평균 비교
독립 이표본 Z 분포
- 두 분포에서 독립인 랜덤표본을 뽑는다. 분포1:$(\mu_1, \sigma_1)$, 분포2:$(\mu_2, \sigma_2)$ (표본 크기는 같거나 다름)
- 표본평균 $\bar{x_1}$과 표본평균 $\bar{x_2}$로 모평균 비교
이표본 Z통계량
$$ z = \dfrac{(\bar{x_1} - \bar{x_2} ) - (\mu_1 - \mu_2) } {\sqrt{ \frac{\sigma^2_1}{n_1} + \frac{\sigma^2_1}{n_1} } } $$
- 두 모분포가 정규분포면 이 통계량은 정확히 N(0,1)을 따르고, 그렇지 않으면 표본의 크기가 클 때 근사적으로 N(0,1)을 따름
- 모분선을 아는 경우 이를 이용하여 $ \mu_1 - \mu_2 $에 대한 신뢰구간과 가설검정 시행
독립 이표본 t 분포
- 두 분포에서 독립인 랜덤표본을 뽑는다. 분포1:$(\mu_1, \sigma_1)$, 분포2:$(\mu_2, \sigma_2)$
- 모분산을 모르는 경우 평균 뿐 아니라 표준편차도 추정해야함
- 표본평균 $\bar{x}_1$과 $\bar{x}_2$로 모평균 추정
- 표본표준편차 $s_1$과 $s_2$로 모표준편차 추정
- 정규분포가 아닌 경우 두 분포가 비슷한 형태를 가지고 극단적 특이치가 없어야함
이표본 t통계량: 근사적으로 t분포 따름
$$ z = \dfrac{(\bar{x_1} - \bar{x_2} ) - (\mu_1 - \mu_2) } {\sqrt{ \frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}} $$
자유도
- 보수적으로 $ min(n_1 -1, n_2 -1)$
- t분포로 근사
$$ df = \dfrac{ (\frac{s_1^2}{n_1} +\frac{s_2^2}{n_2} )^2} {\dfrac {1} {n_1 -1 (\frac{s_1^2}{n_1})^2} + \dfrac {1} {n_2 -1 (\frac{s_2^2}{n_2})^2} } $$
t검정과 신뢰구간
가설 $ H_0 : \mu_1 = \mu_2 \quad \Longleftrightarrow \quad \mu_1 - \mu_2 = 0 $ (대립가설은 양측 또는 단측)
검정통계량
$$ t = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{S_1^2}{n_1} + \dfrac{S_2^2}{n_2}}} $$
$\mu_1 - \mu_2$의 신뢰수준 C인 신뢰구간
$$ \bar{x}_1 - \bar{x}_2 \pm t^* \sqrt{\dfrac{S_1^2}{n_1} + \dfrac{S_2^2}{n_2}} $$
두 표본의 크기가 같을 때 가장 로버스트하고, 대략 $ n_1 + n_2 > 40$ 일때, 정규성 가정 가능
통합(pooled) 이표본 분석
- 컴퓨터의 계산이 발달되지 않았던 시절, 계산량에 관한 이슈로 쓰임이 많고 중요도가 높았음
- 두 모분포가 같은 분산을 가진다고 가정할 수 있는 경우에 사용하는 방법으로, 모분포가 정규분포이면 이표본 t통계량은 정확히 t분포를 갖게됨
통합 분산추정량
$$ s^2_p = \dfrac{\left(n_1-1\right)s_{1}^2+\left(n_2-1\right)s_{2}^2}{n_1+n_2-2} $$
이표본 t통계량
$$ t = \dfrac{(\bar{x}_1 - \bar{x}_2)-(\mu_1 - \mu_2)}{s_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}} $$
자유도: $ n_1 + n_2 -1 $
신뢰구간
$$ \bar{x}_1 - \bar{x}_2 \pm t^* \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}} $$
t-검정 절차
1) 가설 설정: $ H_0 : \mu = \mu_0 \quad vs \quad H_1 : \mu \neq \mu_0 $
2) 유의수준 $ \alpha$ 결정
3) 검정통계량 결정 - 분산의 동일성 검정 (F검정)
검정통계량
$$ t = \dfrac{\bar{x}_1 - \bar{x}_2}{s_p \sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}} \sim t(n_1 + n_2 -1) : 등분산 $$
$$ t = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{s^2_1}{n_1}+\dfrac{s^2_1}{n_2}}} \sim \text{근사 t분포: 이분산} $$
4) 관측된 자료에 대한 p-value 값 계산
이표본 비율 검정
가설
$ H_0 : p_1 = p_2 \quad \Longleftrightarrow \quad p_1 - p_2 = 0 $ (대립가설은 양측 또는 단측)
$\hat{p_1} \sim N\big(p_1, \frac{p_1(1 - p_1)}{n}\big), \quad \hat{p_2} \sim N\big(p_2, \frac{p_2(1 - p_2)}{n}\big)$, $\hat{p_1} - \hat{p_2} \sim N\big(p_1 - p_2, \frac{p_1(1 - p_1)}{n} + \frac{p_2(1 - p_2)}{n}\big)$
검정통계량
$$ z = \dfrac{\hat{p_1} - \hat{p_2}}{\sqrt{\hat{p}(1-\hat{p})(\dfrac{1}{n_1} +\dfrac{1}{n_2} )}} $$
$$ \hat{p} = \frac{n_1 \hat{p_1} + n_2 \hat{p_2}}{n_1 + n_2} $$
$ p_1 - p_2 $의 신뢰구간
$$ \hat{p_1}-\hat{p_2} \pm z^* \sqrt{ \frac{\hat{p_1}(1-\hat{p_1})}{n_1} + \frac{\hat{p_2}(1-\hat{p_2})}{n_2} } $$
대응짝 t-검정 (Matched pairs)
어떤 treatment나 condition을 비교할 때, 두 표본이 독립적이지 않고 연관이 있어 서로 다른 표본에 속한 구성원끼리 짝지어 검정하는 법
- 한 표본의 구성원이 다른 표본에 속한 구성원과 같거나 다를 수 있음
- 단점: 모집단은 한 쌍이 하나가 되어 자유도 감소, 분산이 높아져 기각확률(power) 감소
- 장점: 짝을 잘 지을 경우 표본 내 분산을 줄여 자유도 손실 보정 가능
- 조건
- 자료는 모두 동일 간격을 지닌 연속형 수치(ratio scale, interval scale)여야 함
- 종속변수는 정규분포를 만족해야 함 (대응되는 두 집단의 측정값 차이의 평균이 가지는 정규성)
변수 : $ X_{difference} = (X_1 - X_2) $
$$ H_0 : \mu_{difference} = 0, \quad \quad H_1 : \mu_{difference} \neq 0 $$
검정통계량 ($H_0 : \mu_D = 0$)
$$ t = \frac {\bar{D}} {\dfrac{S_D} {\sqrt{n}} } \sim t(n-1) $$
비모수적 검정
- 모집단에 대한 정보가 없거나 자료의 분포에 특정한 확률분포를 가정하기 어려울 때 사용하는 검정방법
- 모수적 방법에 비해 분포에 대한 가정이 완화되거나 거의 없음
- 부호 또는 상대크기의 순위 등 직관적이고 이해하기 쉬운 정보 사용
- 모수적 방법과 비교하여 표본이 정규분포에 따를 때에서 효율이 크게 떨어지지 않으며, 표본의 분포가 정규분포로부터 멀리 이탈한 경우 효율이 훨씬 좋음
단일 모집단에 대한 검정 | 두 모집단에 대한 검정 |
---|---|
부호검정 (Sign Test) 부호순위검정(Signed Rank Test) |
순위합검정 (Rank Sum Test) |
부호검정
- 모집단의 중앙값에 대한 검정으로 관찰된 표본 중 중앙값을 초과하는 값이 몇 개인지 파악
- 모평균과 모중앙 값은 분포의 위치를 나타내는 모수로써 분포의 형태가 대칭이며 두 모수는 일치
- $ X_1, X_2, \dots X_n $이 중앙값이 $ \theta $ 인 연속형 분포에서 추출된 랜덤표본일 때
가설: $ H_0 = M = \theta_0, \quad \theta_1 = M \neq \theta_0 $
부호검정통계량(sign test statistic)
$$ B = \sum S_i, \quad \quad \quad S_i = 1 (X_i - \theta_0 > 0 ) \quad \quad (X_i - \theta_0 = 0 은 제외) $$
부호순위검정
- 부호검정에서 중앙값보다 큰 관측값의 개수만 사용하여 검정통계량을 만들어 정보의 손실이 많은 단점을 보완하여, 부호뿐만 아닌 상대적 크기를 고려한 검정법
- 중앙값과의 차이를 오름차순으로 나열 후 작은 것부터 순위를 부여한 다음 각 표본의 순위에 부호를 붙여 양의 부호를 가지는 순위의 합을 검정통계량으로 사용
- 윌콕슨 부호순위통계량 (Wilcoxon signed rank test statistic)
- $ X_1, X_2, \dots X_n $이 $ \theta $ 에 대해 대칭인 연속형 분포에서 추출된 랜덤표본일 때
- 가설: $ H_0 = M = \theta_0, \quad \theta_1 = M \neq \theta_0 $
$$ W^+ = \sum S_iR_i^+, \quad \quad (S_i = 1 (X_i - \theta_0 > 0 ), \quad R^+ = |X_i - \theta_0| 의 순위 )$$
$$ E_0[W^+] = \frac{n(n+1)} {4}, \quad V_0[W^+] = \frac{n(n+1)(2n+1)} {24} $$
$n$ 이 충분히 클 때,
$$ Z_{W^+} = \frac{W^+ - E_0[W^+]} {\sqrt{V_0 [W^+]}} \sim \mathcal{n}(0, 1) $$
$ S = W^+ -\frac{n(n+1)} {4} $이 사용되기도 함 (in SAS)
- 가설: $ H_0 = M = \theta_0, \quad \theta_1 = M \neq \theta_0 $
- 동순위(tie): 순위의 평균으로 대체. $W^+$의 정확한 분포를 구할 수 없게 되어 p-value 계산이 복잡하고 정규근사를 하기 전 표준편차의 보정이 필요
- $ X_1, X_2, \dots X_n $이 $ \theta $ 에 대해 대칭인 연속형 분포에서 추출된 랜덤표본일 때
순위합검정
- 윌콕슨 순위합검정: 순위를 기초로 두 모집단의 위치모수에 대한 가설검정 수헹
- 독립인 $ x_1, \dots, x_n, y_1, \dots, y_n $에 대해 각각의 위치모수 $ \theta_1, \theta_2 $를 가지는 임의확률분포에 대해
- 두 표본의 관측치를 혼합하여 크기 순으로 배열하고 차례로 순위를 매김
- $ x$들의 순위합 $ W_x $ 와 $y$들의 순위합 $ W_y$를 계산
- $ W_x $ 를 통계량 $ W $로 하고 $ W $의 분포표에서 유의확률을 구함
- 표본크기가 충분히 큰 경우 정규근사법 이용하여 계산
- $ H_0 $에서
$$ E[W_x] = \frac{n_1(n_1+n_2+1)} {2} (순위합의 평균), \quad V[W_x] = \frac{n_1 n_2 (n_1+n_2+1)} {12} $$
- 독립인 $ x_1, \dots, x_n, y_1, \dots, y_n $에 대해 각각의 위치모수 $ \theta_1, \theta_2 $를 가지는 임의확률분포에 대해
- 맨-휘트니(Mann-Whitney) U 통계량
$$ U = W_x - \frac{n_1(n_1 +1)}{2}$$ - p-value는 모든 permutation 경우의 수를 생각해서 정확한 값 계산 가능, 표본의 크기가 커질면 $W_x$의 분포가 근사적으로 정규분포를 따른다는 사실에 기초하여 근사적으로 계산되기도 함
- 검정통계량:
$$ Z = \frac{W_x - \mu_{W_x}}{\sigma_{W_x}} = \dfrac{W_x - n_1(n_1+n_2+1)/2} {n_1 n_2 (n_1 + n_2 + 1)/12 } $$
- 검정통계량:
연관성 분석
1) 상관분석 : 연속형 변수
2) 카이제곱검정 : 범주형 변수
상관분석 (Correlation Analysis)
- 두 연속형 변수들 간의 관련성 정도 분석
- 양의 상관관계 (positive correlation): 한 변수의 값이 증가하면 다른 변수의 값도 증가
- 음의 상관관계 (negative correlation): 한 변수의 값이 증가하면 다른 변수의 값은 감소
- 상관관계 없음 (no correlation, dependence): 두 변수 사이에 선형적 관련 없음
- 해석의 주의점
- 두 변수 간에 상관관계가 있다는 결론이 인과관계를 의미하는 것은 아님 (상관은 인과관계를 파악하는 것이 아님)
- 표본상관계수의 값이 0에 가깝다는 것은 두 변수 사이의 직선관계가 약한 것이고 관계가 없음을 뜻하는 것이 아님
- 산점도를 그려서 먼저 선형성을 확인
- 상관관계의 확장이 회귀분석
공분산: 두 변수가 공유하는 변동의 양
$$ Cov(X,Y) = \frac {\sum_{i=1}^{N} {(x_i - \bar{x})(y_i - \bar{y})}} {n-1} $$
Pearson's correlation coefficient로 상관계수 추정
- 표준화같은 개념으로 공분산을 표본분산을 반영해 단위에 영향 받지 않게 함
$$ r = \frac{Cov(X, Y}{\sqrt{S^2_x S^2_y}} = \frac {\sum_{i=1}^{N} {(x_i - \bar{x})(y_i - \bar{y})}} {\sqrt{\sum_{i=1}^{N} (x_i - \bar{x})^2 \sum_{i=1}^{N} (y_i - \bar{y})^2 }} $$ - $ -1 \leq r \leq 1 $
- 두 변수이 측정 단위 바뀌어도 상관계수 불변 (서로 다른 단위의 집단간 비교 가능)
- 절댓값은 선형관계의 강약, 부호는 선형관계의 방향 나타냄
비정규형 자료에 대한 상관계수
스피어만 상관계수 (Spearman's rho) - 원자료의 순위를 이용한 상관계수
$ R_i = { X_1, \dots, X_n}$ 에서 $X_i$의 순위, $ \quad S_i = { Y_1, \dots, Y_n}$ 에서 $Y_i$의 순위일 때,
$$ r_s = \frac{\sum (R_i - \bar{R})(S_i - \bar{S}) } { \sum (R_i - \bar{R})^2 \sum (S_i - \bar{S}^2)} = 1-\frac{6}{n(n^2-1) \sum(R_i - S_i)^2} $$
켄달 상관계수 (Kendall's tau)
$$ \tau = \frac{C_D} {C+D} = 1 - \frac{4D} {n(n-1)} $$
$C$: 일치쌍(concordant pair)의 개수, 각 변수에 대한 관측값이 크기 순서에서 같은 방향에 있는 관찰 개체의 수
$D$: 불일치쌍(discordant pair)의 개수, 각 변수에 대한 관측값이 크기 순서에서 반대 방향에 있는 관찰 개체의 수
범주형 변수들 간의 연관성 분석 (카이제곱 검정)
카이제곱 검정 (Chisquare test)
- 카이제곱 분포에 기초한 통계적 방법
- 관찰된 빈도가 기대 빈도와 유의하게 다른지 검증
- $ \chi^2 = \sum (관측값 - 기댓값)^2 / 기댓값 $
- 자유도를 구하고, 유의수준에 해당하는 $ \chi_2$ 값과 비교하여 결론 내림
적합도 검정(goodness of fit test): 여러 범주로 분류되는 단일표본
- "실제 표본이 내가 생각하는 분포와 같은가?"
- 관측값(빈도)들이 어떤(예측한) 특정한 분포를 따르고 있는지 검정
- 어떤 모집단의 표본이 그 모집단을 대표하는지 검정
동질성 검정(homogeneity test): 여러 범주로 분류되는 독립표본
- "두 변수는 서로 연관성이 있는가?"
- 몇 가지 다른 분포를 비교, 몇 개의 랜덤표본들이 뽑힌 모집단의 분포를 비교
- 실험계획에 따른 연구(experiment study)
$ H_0: $ 두 변수가 독립 (연관성 없음)
$ H_0: $ 두 변수가 독립 아님 (연관성 있음) - 표본에서 관측된 실제빈도와 귀무가설이 참일 때의 기대빈도를 비교해 차이가 크기면 귀무가설 기각
$ n_{ij}$ = 관찰빈도
$ m_{ij}$ = 기대빈도
$m_{ij} = n(\frac {n_i n_j} {n^2}) = \frac {n_i n_j} {n} $ - $ \chi ^2 $ 검정통계량
- 귀무가설 하에서 근사적으로 자유도 $(i-1)(j-1)$을 가진 $ \chi ^2 $ 분포를 따름
- 각 cell의 기대빈도 > 5
$$ Q = \sum_{i=1}^{I} \sum_{j=1}^{J} \frac {(n_{ij} - m_{ij})^2} {m_{ij}} = \sim \chi^2_{(I-1)(J-1)} $$
독립성 검정(testing independence): 두 특성에 따라 동시에 분류되는 단일표본
- "두 집단의 분포가 동일한가?"
- 하나의 랜덤 표본을 뽑아 두 개의 범주형 변수에 따라 분류한 후 두 변수가 독립인지 검정
- 관측연구 (observation study)
- 표본비율에 나타나는 차이가 실제 차이에 의한 것인지 랜덤추풀에서 나오는 우연한 결과인지 보고자 함 (기대빈도의 진위 여부를 밝힘)
- 동질성 검정과 검정절차 동일
분산분석 (Analysis of Variance)
- 세 개 이상의 모평균을 비교하는데 사용되는 분석방법
일원분류 분산분석
- 완전랜덤화된 일원배치 자료에 사용
- 관심있는 한 가지 요인에 몇 개의 수준이 있어서 실험단위가 수준에 완전히 랜덤하게 배치된 자료에 사용
- 오차항이 평균이 0, 표준편차가 $\sigma$인 정규분포를 따름을 가정
- 우선 처리의 평균들이 같은지 F-검정 후, 다를 경우 multiple comparison을 통헤 차이 확인
ANOVA-F 검정
- 편차의 분해: $ y_{ij} - \bar{y} = (y_{ij} - \bar{y_i}) + (\bar{y_j} - \bar{y}) $
- 총 변동의 분해: $ \sum_{i=1}^{k} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = \sum_{i=1}^{k} \sum_{j=1}^{n} \ (y_i - \bar{y})^2 + \sum_{i=1}^{k} \sum_{j=1}^{n} (y_{ij} - \bar{y_i})^2 $
전체제곱합(SST) = 처리제곱합(SSA) + 잔차제곱합(SSE)
전체자유도 = 처리자유도 + 오차자유도
처리자유도: 표본 간 차이 설명
오차자유도: 표본 내 변동 설명
- 총 변동의 분해: $ \sum_{i=1}^{k} \sum_{j=1}^{n} (y_{ij} - \bar{y})^2 = \sum_{i=1}^{k} \sum_{j=1}^{n} \ (y_i - \bar{y})^2 + \sum_{i=1}^{k} \sum_{j=1}^{n} (y_{ij} - \bar{y_i})^2 $
- F-검정
$ H_0: \mu_1 = \mu_2 = \dots = \mu_k, \quad H_1:$ 모든 $\mu_i$가 같지 않다.
$$ F = \frac {SSA / (k-1)} {SSE(N-k) } \sim F_{(k-1),(N-k)} $$ - 어떤 $\mu_i$가 다른지는 다중비교로 파악
- 요인의 레벨에 따른 변동과 같은 레벨 안에서의 변동을 비교
- F = 표본 간 변동성 / 표본 내 변동성
- F-value가 (자유도에 따라)클수록 더 유의한 결과룰 주게 됨
분산분석표 (ANOVA table)
분산의 요인 | 제곱합SS | DF | 평균제곱 MS | 분산비 F | P-value |
---|---|---|---|---|---|
처리 | SSA | k-1 | MSA=SSA/k-1 | F=MSA/MSE | tall area abone F |
오차 | SSE | N-k | MSE=SSE/N-k | ||
전체 | SST=SSA+SSR | N-k |
'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글
패널자료분석(Panel Data Analysis) (1) | 2020.03.04 |
---|---|
분산분석 이론 (0) | 2020.01.25 |
선형회귀 및 로지스틱 회귀 (0) | 2020.01.19 |
선형회귀분석 (0) | 2020.01.13 |
기초통계이론 1 (0) | 2020.01.10 |