하기 작성된 내용들은 2020년 1월 10일 고려대학교 통계연구소 동계 워크숍 정환 교수님(hwanch@korea.ac.kr)의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.
소개
범주형 자료 분석
- 범주형 자료란 흔히 반응(종속) 변수가 범주형인 데이터를 의미. 설명(독립) 변수는 범주형일 수도 아닐 수도 있음
- 범주형 자료 분석 방법
- 독립성 검정: 카이제곱 근사 검정, Fisher 정확 검정
- 회귀모형: 로지스틱 회귀모형, 기준범주 로짓모형
- 로그선형모형 등
회귀모형이란
- 회귀분석: 반응변수가 예측변수들에 의해 어떻게 설명 또는 예측되는지를 모형을 이용하여 알아보기 위한 통계적 방법
- 회귀모형: $ Y = f(X_1, X_2, \dots, X_p) + \epsilon $
- 반응변수 Y가 정규분포를 따르는 양적변수일 때 선형회귀모형: $ Y = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p + \epsilon $
일반화선형모형 (Generalized linear model; GLM)
- 기본적 선형회귀모형(ordinary linear regression model)에서 반응변수는 설명변수들의 선형결합에 정규분포를 따르는 오차가 붙여지는 것으로 가정. 따라서 반응변수는 연속형
- 실제로는 종속변수가 이산형인 경우 종종 있고 연속형이지만 정규분포가 아닌 경우 있음 - 기본적 선형회귀모형이 적절치 않으므로 대안 모형이 필요
- 일반화선형모형 중 종속변수가 이항(binary)인 경우 로지스틱회귀모형(logistic regression model), 종속변수가 다항(multinomial)인 경우 명목형(nomial) 종속변수를 위한 기준범주로짓모형 또는 순서형(ordinal) 종속변수를 위한 누적로짓모형 사용
GLM의 세가지 요소
1) 랜덤 성분(random component): 반응변수 Y의 확률 분포 규정
2) 체계적 성분(systematic component): 설명변수 $x_j$의 선형식
3) 연결 함수(link function): 체계적 성분과 랜덤 성분의 기댓값과의 함수 관계
- $ g(\mu_i) = \beta_0 + \beta_1 X_{1i} + \dots + \beta_p X_{pi} $
- Y가 정규분포 -> 항등 연결 $g(\mu) = \mu $ : ordinary regression
- Y가 포아송분포 -> log 연결 $g(\mu) = log(\mu) $ : poisson regression
- Y가 이항분포 -> logit 연결 $g(\mu) = log[\mu / (1- \mu)] $ : logistic regression
odds ratio
- X와 Y가 범주형일 때, 상관관계를 보기 위한 통계량 (연속형일 때도 가능)
- 연속형인경우 correlation에 해당
- 선형회귀의 $ \beta$ 와 같은 개념으로 관계 통계량
- 전/후향 연구 여부에 영향 받지 않음
로지스틱 회귀모형
- 선형회귀모형의 목표와 동일하게 반응변수와 설명변수 간의 관계를 구체적인 함수로 나타내어 해석하거나 예측하기 위해 사용
- 반응변수가 이항(binary)인 경우 사용
- 이항 반응변수 Y에 대한 일반화선형모형
$$ g(\mu) = log \left[ \frac{\mu} { 1 - \mu } \right] = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p$$
$$ \mu = E(Y) = P(Y=1) = \pi $$ - 2개의 범주를 취하는 반응변수 Y를 공변량(covariate) X로 설명하기 위한 대표적 모형
- 반응변수는 2개의 범주를 취하는 범주형 변수이고, 설명변수는 범주형 변수 또는 연속형 변수
- 반응변수가 2개의 범주를 취하는데 일반적 회귀모형을 적용할 경우 발생 문제점
- 일반적 회귀모형: $ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i \sim \mathcal{N}(0, \sigma^2)$
- 관측치 $ Y_i$ 는 0 또는 1이지만, 예측치 $\hat{Y_i}$는 $ \infty $ 에서 $ - \infty $ 까지의 연속형 값
- 로짓 변환을 취한 후 회귀모형 적용으로 해결 (선형회귀분석은 각각의 자료를 직접 변환한다는 것과 다름)
정의
- 반응변수 Y와 2개 범주를 0과 1로 표시
- $ \pi(x) = P(Y = 1 | X = x)$ : $X$ 가 $x$ 로 주어졌을 때, $Y$ 가 1일 확률
$$ log \left( \frac{\pi} {1 - \pi (x)} \right) = \beta_0 + \beta_1 x $$
$$ \pi(x )= \frac{exp(\beta_0 + \beta_1 x )} {1 + exp(\beta_0 + \beta_1 x )} $$ - $\beta_0$ 과 $\beta_1$ 는 회귀계수
해석
- $\beta_1$ 이 양수이면 $X$가 증가함에 따라 성공확률 $\pi(x)$ 증가, $\beta_1$ 이 음수이면 $X$가 증가함에 따라 성공확률 $\pi(x)$ 감소
- $\beta_1$ 의 크기는 곡선이 얼마나빨리 증가 또는 감소하는지를 결정하며 $ |\beta_1|$ 이 증가함에 따라 곡선은 더욱 가파른 변화를 보임
- $\beta_1 =0$ 일 때, 곡선은 $x$ 축에 평행인 직선
- $\pi(x)$ 은 이항 분포의 모수
- 로지스틱 회귀모형은 $\pi(x)$ 의 로짓(logit)에 대한 선형식
$$logit[\pi(x)] = log \frac{\pi(x)} {1 - \pi(X)} = \beta_0 + \beta_1 x $$
중위수 효과 수준 (median effect level)
- 곡선의 기울기가 가장 가파른 점은 $\pi(x) = 0.5 $ 가 되는 $ x = - \beta_0 / \beta_1 $ 일 때
- $x$ 값에 $ - \beta_0 / \beta_1 $ 를 대입하여 $\pi(x) = 0.5 $ 를 확인하거나 식을 품
오즈비(Odds ratio)의 해석
- 반응 1(성공)의 오즈는 $logit[\pi(x)] = log \frac{\pi(x)} {1 - \pi(X)} = \beta_0 + \beta_1 x $ 에서
$$\frac{\pi(x)} {1 - \pi(X)} = exp(\beta_0 + \beta_1 x) = e^{\beta_0} (e^{\beta_1})^x$$ - $x$ 가 1단위 증가함에 따라 오즈는 $ e^{\beta_1} $ 배 만큼씩 곱해져서 증가
- $x$ 에서의 오즈에 $ e^{\beta_1} $ 를 곱해 $(x+1)$ 의 오즈를 구함
- $ \beta_1 =0 $ 일 때는 $ e^{\beta_1} =1$ 로 일정하므로 $x$ 의 변화와 관계 없음
- $ \beta = 0 \Leftrightarrow Y \bot X (\because OR=1) $
- $ H_0 : \beta = 0 $ test는 $Y$ 와 $X$ ㄴ가 독립임을 검정하는 것과 동일
다중모형
- 설명변수가 2개 이상
- $ \pi(x) = P(Y = 1 | X_1 = x_1, \dots, X_p = x_p) : X = (X_1, \dots, x_p), x = (x_1, \dots, x_p) $ 로 주어졌을 때, $Y$ 가 1일 확률
$$ log \frac{\pi(x)} {1 - \pi(X)} = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p $$
$$ \pi(x)= \frac{exp(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p )} {1 + exp(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)} $$
추정
- 가능도(likelihood) 최대화하는 모수의 추정지 계산
- 계수 모수 추정치: $ \hat{\beta}_0 , \hat{\beta}_1 , \dots, \hat{\beta}_p $
- 오즈비 추정치: $ e^{ \hat{\beta}_0}, e^{ \hat{\beta}_1}, \dots, e^{ \hat{\beta}_p}, $
- $ log( \frac{\hat{\pi}(x)} {1 - \hat{\pi}(x)}) = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \dots + \hat{\beta}_p x_p $
- $ \hat{\pi}(x)= \frac{exp(\hat{\beta}_0 + \hat{\beta}_1 x_1 + \dots + \hat{\beta}_p x_p )} {1 + exp(\hat{\beta}_0 + \hat{\beta}_1 x_1 + \dots + \hat{\beta}_p x_p) } $
- 가능도 최대 추정치(maximun likelihood estimate; MLE)는 Newton-Raphson 또는 Fisher scoring 알고리즘 같은 반복적인 최적화 방법 이용
- 자료에 따라 수렴(convergence)이 이루어지지 않을 수 있음
구간 추정
- 계수 모수 $ \beta_j $ 에 대한 $ (1-\alpha) \times 100% $ 신뢰구간:
$$ \hat {\beta}_ j \pm z_{\alpha /2} \times SE(\hat{\beta}_j), \quad j = 0, 1, 2, \dots, p$$ - 오즈비 $e^{\beta_j}$ 데 애한 $ (1-\alpha) \times 100% $ 신뢰구간:
$$exp( \hat{\beta}_ j \pm z_{\alpha /2} \times SE(\hat{\beta}_j)), \quad j = 0, 1, 2, \dots, p$$
검정
- 가설: $ H_0 : \beta_1 = \beta_2 = \dots = \beta_p = 0$ vs $H_1 : not H_0 $
- 검정통계량
- Wald 검정
- Likelihood Ratio 검정
- Score 검정
- 검정통계량이 $ \chi^2_{df} (\alpha)$ 보다 크면, 즉 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $H_0$ 기각
예측
- 유의한 $p$ 개의 설명변수로 적합된 로지스틱 회귀모형을 이용하여 $i$ 번째 객체가 1을 취할 예측 확률 :
$$ \hat{\pi}_ i = \hat{P} (Y_i = 1 | X_{1i} = x_{1i}, \dots, X_{pi} = x_{pi}) = \frac {exp(\hat{\beta}_ 0 + \hat{\beta}_ 1 x_{1i} + \dots + \hat{\beta}_ p x_{pi} )} {1 + exp(\hat{\beta}_ 0 + \hat{\beta}_ 1 x_{1i} + \dots + \hat{\beta}_ p x_{pi}) }$$- $\hat{\pi_i} > \pi_0 $ 이면 $\hat{Y}_ i = 1 $
- $\hat{\pi_i} \leq \pi_0 $ 이면 $\hat{Y}_i = 0 $
- $\pi_ 0 $ 는 흔히 0.5
- 민감도 (sensitivity) : $ P(\hat{Y}_i = 1 | Y_i =1) $
- 특이도 (specificity) : $ P(\hat{Y}_i = 0 | Y_i =0) $
ROC(Recievier operating characteristic) curve
- 모든 가능항 $\pi_0$ 에 대해 민감도와 (1-특이도)의 그림
- 곡선 아래 면적 (AUC; Area under the curve)이 클수록 더 좋은 예측력
- 랜덤하게 예측할 경우 45도 각도의 대각선
모형 진단 (Model Diagnosis)
- 모형의 적합성 조사는 단지 현재 모형이 다른 모형에 비해 좋은지 나쁜지 조사하지만, 그 모형의 성질에 대해서 검토하지 못함
- 모형적합이 좋지 않을 때 모형진단을 통해 모형적합에 개별 관측치가 얼마나 영향을 주는지를 조사해 모형의 적합성 확인
잔차분석
- 잔차 종류: Pearson residual, Standardized residual, Deviance residual
- 잔차의 절댓값이 크면 적합 결여(lack of fit)의 증거가 됨
영향력 진단
- 측도 : Dfbeta, c or cbar, $X^2$ or $G^2$ Difference
- 측도 값이 클수록 영향력 커지므로 주의깊게 관찰
모형 선택
- 모형은 데이터를 적합할 만큼 충분히 복잡(complex)하고 과적합(overfitting)하지 않고, 해석이 용이하도록 상대적으로 단순(simple)해야 함
- 변수선택 이유
- 너무 많은 설명변수 유지는 비효율적이고 예측오차 증가 시킴
- 유의한 설명변수 제외는 중요한 정보 손실 및 편향된 결과 도출 가능
기준
- AIC(Akaike information criterion)
- AIC = -2log(likelihood) + 2p (p: # of parameters)
- 실제 데이터의 분포와 통계모형이 예측하는 분포 사이의 차이를 수량화한 것
- 한 모델이 새로운 데이터를 예측할 수 있는 능력은 이 모델이 기존의 데이터를 얼마나 잘 설명하는지, 그리고 그 모델이 얼마나 간단한지의 두 요소에 의해 결정된다는 것을 말해줌
- 통계모형이 참 모형인지에 대해서는 알 수 없음
- 패널티는 표본 크기에 무관
- BIC(Bayesian Information Criterion)
- BIC = -2log(likelihood) + plog(n) (n: 데이터 갯수)
- 비교 대상이 되는 모형들 중 참된 모형이 있다는 가정 하에 BIC로 모형 선택을 할 경우, 샘플 크기가 증가함에 따라 참된 모형을 선택할 확률이 1에 가까워짐
- 표본 크기가 커질수록 복잡학 모형을 더 강하게 처벌
- Deviance
- 한 모형이 다른 모형에 포함되어 있는 경우에만 가능
- Score
변수 선택 방법
- 모든 가능한 모형(All Possibile Models)
- 주어진 설명변수의 모든 조합을 고려 ($2^p-1$가지 회귀모형)
- 전진선택법(Foward Selection)
- 가장 유의한 것으로 판단되는 변수부터 하나씩 선택하여 포함
- 더이상 유의한 변수 겂을 때 변수선택 중단
- 후진소거법(Backward Selection)
- 가장 유의한 것으로 판단되는 변수부터 하나씩 제거
- 더이상 유의하지 않은 변수가 없을 때 변수 제거 중단
- 가장 보수적인 방법
- 단계적선택법(Stepwise Selection)
- 전진선택법과 후진소거법 혼합
- 가장 유의한 것으로 판단되는 변수부터 하나씩 선택하여 포함하되 이미 포함된 변수를 유의하지 않으면 제거
- 대부분의 연구에서는 이미 어느정도의 candidiate이 있기 때문에 위와 같은 방법들은 사용하지 않음. 실제로는 모든 변수를 넣고 유의수준을 크게 잡아 중요변수를 놓치지 않게 선별한 후, backward를 쓰고 그 사이에 미리 제외했던 변수를 다시 넣어서 확인하는 방법 사용
기준범주 로짓 회귀모형 (Baseline-Category Logit Model)
- 반응변수의 범주의 수 $J$ 가 2개 이상이고 명목형(nominal)인 경우
- 반응확률 :
$$\pi_j = P(Y=j \mid X_1=x_1,\dots,X_p=x_p)$$
$X = (X_1, \dots, X_p)$가 $x = (x_1, \dots, x_p)$로 주어졌을 때 $Y$ 가 $j$ 범주에 속할 확률. ($\sum \pi_j =1$) - 기저범수 로짓모형 :
$$log \left( \frac{\pi_j}{\pi_J} \right) = log \left(\frac{P(Y=j | X_1 =x_1, \dots, X_p=x_p)}{P(Y=J | X_1 =x_1, \dots, X_p=x_p)}\right)$$
$$\beta_{0j} + \beta_{1j}x_1+ \dots + \beta_{pj}x_p, j=1, \dots, J-1$$ - $ J=2$ 인 경우 반응변수를 위한 로지스틱 회귀모형
- 모든 쌍의 로짓 계산이 가능
$$ log \left(\frac{\pi_a}{\pi_b}\right) = log \left(\frac{\pi_a / \pi_J}{\pi_b/ \pi_J}\right) = log \left(\frac{\pi_a}{\pi_J}\right) - log \left(\frac{\pi_b}{\pi_J}\right) $$
$$ = (\beta_{0a} + \beta_{1a}x_1 + \dots + \beta_{pa}x_p) - (\beta_{0b} + \beta_{1b}x_1 + \dots + \beta_{pb}x_p)$$
$$= (\beta_{0a} + \beta_{0b}) +(\beta_{1a} + \beta_{1b})x_1 + \dots + (\beta_{pa} + \beta_{pb}) x_p $$ - 모형 공식을 변형하여 $j$ 번째 범주에 속할 확률을 직접 나타낼 수 있음
$$ \pi_j(x) = \frac{exp(\beta_{0j} + \beta_{1j}x_1 + \dots + \beta_{pj}x_p)}{1+ \sum_{h=1}^{J-1} exp(\beta_{0h} + \beta_{1h}x_1 + \dots + \beta_{ph}x_p)} $$ - 오즈비(Odds Ratio) = $ exp(\beta_{kj}) : x_k $ 가 1단위 증가함에 따라 오즈는 $ e^{\beta_{kj}} $ 배만큼씩 곱해져서 증가
누적 로짓 회귀모형 (Cumulative Logit Model)
- 반응변수의 범주의 수 $J$ 가 2개 이상이고 순서형(nominal)인 경우
- 반응확률 :
$$\pi_j = P(Y=j | X_1 =x_1, \dots, X_p=x_p)$$
$X = (X_1, \dots, X_p)$가 $x = (x_1, \dots, x_p)$로 주어졌을 때 $Y$ 가 $j$ 범주에 속할 확률. $\sum \pi_j =1$ - 누적확률 :
$$ P(Y\leq j | x_1, \dots, x_p) = \pi_1(x) + \dots + \pi_j(x), j=1, \dots, J-1$$ - 누적로짓모형:
$$ logit [P(Y \leq j | x)] = log \left( \frac{ P(Y \leq j | X_1 = x_1, \dots, X_p=x_p) }{P(Y > j | X_1 = x_1, \dots, X_p=x_p)} \right) = log \left( \frac{ \pi_1(x) + \pi_2(x) + \dots + \pi_j(x) } { \pi_{j+1}(x) + \pi_{j+2}(x) + \dots + \pi_J(x) } \right)$$
$$ =\beta_{0j}+ \beta_1 x_1+ \dots + \beta_p x_p, j = 1, \dots , J-1$$
- 절편 $\beta_{0j}$를 제외하고 회귀계수 $\beta_k$ 에 $j$ 가 없음. 즉, $(J-1)$ 개 누적 로짓에 대한 효과 동일
- 누적로짓모형은 비례오즈(proportion odds)의 가정이 만족해야 함
- 비례오즈모형:
$$logit[P(Y \leq j|x')] - logit[P(Y \leq j|x^{''})] = log \frac{ P(Y \leq j | x') / P(Y < j | x') } { P(Y \leq j | x^{''}) / P(Y < j | x^{''})}$$
$$=\beta^T ( x' - x^{''})$$
- $x$ 값의 거리에만 비례
- score 검정으로 비례오즈 가정 만족 확인
- 모형 공식을 변형하여 $j$ 번째 범주에 속할 확률을 직접 나타낼 수 있음
$$P(Y \leq j) = \frac{ exp(\beta_{0j} + \beta_1 x_1 + \dots + \beta_p x_p) } {1+exp(\beta_{0j} + \beta_1 x_1 + \dots + \beta_p x_p) }$$
$$P(Y=j) = P(Y \leq j) - P(Y \leq j-1)$$ - 오즈비(Odds Ratio) = $ exp(\beta_{k}) : x_k $ 가 1단위 증가함에 따라 오즈는 $ e^{\beta_{k}} $ 배만큼씩 곱해져서 증가
참고문헌(추천도서)
- 박태성, 이승연(1999), 범주형자료분석개론 (자유아카데미)
- Agresti, A.(2013), Categorical Data Analysis, New York (John Wiley & Sons, Inc.)
- Agresti, A.(2007), An Introduction to Categorical Data Analysis, New York (John Wiley & Sons, Inc.)
- http://www.stat.ufl.edu/~aa/
'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글
패널자료분석(Panel Data Analysis) (1) | 2020.03.04 |
---|---|
분산분석 이론 (0) | 2020.01.25 |
선형회귀분석 (0) | 2020.01.13 |
기초통계이론 2 (0) | 2020.01.12 |
기초통계이론 1 (0) | 2020.01.10 |