선형회귀 및 로지스틱 회귀

하기 작성된 내용들은 2020년 1월 10일 고려대학교 통계연구소 동계 워크숍 정환 교수님(hwanch@korea.ac.kr)의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.

소개

범주형 자료 분석

범주형 자료란 흔히 반응(종속) 변수가 범주형인 데이터를 의미. 설명(독립) 변수는 범주형일 수도 아닐 수도 있음
범주형 자료 분석 방법
- 독립성 검정: 카이제곱 근사 검정, Fisher 정확 검정
- 회귀모형: 로지스틱 회귀모형, 기준범주 로짓모형
- 로그선형모형 등

회귀모형이란

회귀분석: 반응변수가 예측변수들에 의해 어떻게 설명 또는 예측되는지를 모형을 이용하여 알아보기 위한 통계적 방법
회귀모형: $ Y = f(X_1, X_2, \dots, X_p) + \epsilon $
반응변수 Y가 정규분포를 따르는 양적변수일 때 선형회귀모형: $ Y = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p + \epsilon $

일반화선형모형 (Generalized linear model; GLM)

기본적 선형회귀모형(ordinary linear regression model)에서 반응변수는 설명변수들의 선형결합에 정규분포를 따르는 오차가 붙여지는 것으로 가정. 따라서 반응변수는 연속형
실제로는 종속변수가 이산형인 경우 종종 있고 연속형이지만 정규분포가 아닌 경우 있음 - 기본적 선형회귀모형이 적절치 않으므로 대안 모형이 필요
일반화선형모형 중 종속변수가 이항(binary)인 경우 로지스틱회귀모형(logistic regression model), 종속변수가 다항(multinomial)인 경우 명목형(nomial) 종속변수를 위한 기준범주로짓모형 또는 순서형(ordinal) 종속변수를 위한 누적로짓모형 사용

GLM의 세가지 요소

1) 랜덤 성분(random component): 반응변수 Y의 확률 분포 규정
2) 체계적 성분(systematic component): 설명변수 $x_j$의 선형식
3) 연결 함수(link function): 체계적 성분과 랜덤 성분의 기댓값과의 함수 관계

$ g(\mu_i) = \beta_0 + \beta_1 X_{1i} + \dots + \beta_p X_{pi} $
Y가 정규분포 -> 항등 연결 $g(\mu) = \mu $ : ordinary regression
Y가 포아송분포 -> log 연결 $g(\mu) = log(\mu) $ : poisson regression
Y가 이항분포 -> logit 연결 $g(\mu) = log[\mu / (1- \mu)] $ : logistic regression

odds ratio

X와 Y가 범주형일 때, 상관관계를 보기 위한 통계량 (연속형일 때도 가능)
- 연속형인경우 correlation에 해당
- 선형회귀의 $ \beta$ 와 같은 개념으로 관계 통계량
전/후향 연구 여부에 영향 받지 않음

로지스틱 회귀모형

선형회귀모형의 목표와 동일하게 반응변수와 설명변수 간의 관계를 구체적인 함수로 나타내어 해석하거나 예측하기 위해 사용
반응변수가 이항(binary)인 경우 사용
이항 반응변수 Y에 대한 일반화선형모형
$$ g(\mu) = log \left[ \frac{\mu} { 1 - \mu } \right] = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p$$
$$ \mu = E(Y) = P(Y=1) = \pi $$
2개의 범주를 취하는 반응변수 Y를 공변량(covariate) X로 설명하기 위한 대표적 모형
반응변수는 2개의 범주를 취하는 범주형 변수이고, 설명변수는 범주형 변수 또는 연속형 변수
반응변수가 2개의 범주를 취하는데 일반적 회귀모형을 적용할 경우 발생 문제점
- 일반적 회귀모형: $ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i \sim \mathcal{N}(0, \sigma^2)$
- 관측치 $ Y_i$ 는 0 또는 1이지만, 예측치 $\hat{Y_i}$는 $ \infty $ 에서 $ - \infty $ 까지의 연속형 값
- 로짓 변환을 취한 후 회귀모형 적용으로 해결 (선형회귀분석은 각각의 자료를 직접 변환한다는 것과 다름)

정의

반응변수 Y와 2개 범주를 0과 1로 표시
$ \pi(x) = P(Y = 1 | X = x)$ : $X$ 가 $x$ 로 주어졌을 때, $Y$ 가 1일 확률
$$ log \left( \frac{\pi} {1 - \pi (x)} \right) = \beta_0 + \beta_1 x $$
$$ \pi(x )= \frac{exp(\beta_0 + \beta_1 x )} {1 + exp(\beta_0 + \beta_1 x )} $$
$\beta_0$ 과 $\beta_1$ 는 회귀계수

해석

$\beta_1$ 이 양수이면 $X$가 증가함에 따라 성공확률 $\pi(x)$ 증가, $\beta_1$ 이 음수이면 $X$가 증가함에 따라 성공확률 $\pi(x)$ 감소
$\beta_1$ 의 크기는 곡선이 얼마나빨리 증가 또는 감소하는지를 결정하며 $ |\beta_1|$ 이 증가함에 따라 곡선은 더욱 가파른 변화를 보임
$\beta_1 =0$ 일 때, 곡선은 $x$ 축에 평행인 직선
$\pi(x)$ 은 이항 분포의 모수
로지스틱 회귀모형은 $\pi(x)$ 의 로짓(logit)에 대한 선형식
$$logit[\pi(x)] = log \frac{\pi(x)} {1 - \pi(X)} = \beta_0 + \beta_1 x $$

중위수 효과 수준 (median effect level)

곡선의 기울기가 가장 가파른 점은 $\pi(x) = 0.5 $ 가 되는 $ x = - \beta_0 / \beta_1 $ 일 때
$x$ 값에 $ - \beta_0 / \beta_1 $ 를 대입하여 $\pi(x) = 0.5 $ 를 확인하거나 식을 품

오즈비(Odds ratio)의 해석

반응 1(성공)의 오즈는 $logit[\pi(x)] = log \frac{\pi(x)} {1 - \pi(X)} = \beta_0 + \beta_1 x $ 에서
$$\frac{\pi(x)} {1 - \pi(X)} = exp(\beta_0 + \beta_1 x) = e^{\beta_0} (e^{\beta_1})^x$$
$x$ 가 1단위 증가함에 따라 오즈는 $ e^{\beta_1} $ 배 만큼씩 곱해져서 증가
$x$ 에서의 오즈에 $ e^{\beta_1} $ 를 곱해 $(x+1)$ 의 오즈를 구함
$ \beta_1 =0 $ 일 때는 $ e^{\beta_1} =1$ 로 일정하므로 $x$ 의 변화와 관계 없음
- $ \beta = 0 \Leftrightarrow Y \bot X (\because OR=1) $
- $ H_0 : \beta = 0 $ test는 $Y$ 와 $X$ ㄴ가 독립임을 검정하는 것과 동일

다중모형

설명변수가 2개 이상
$ \pi(x) = P(Y = 1 | X_1 = x_1, \dots, X_p = x_p) : X = (X_1, \dots, x_p), x = (x_1, \dots, x_p) $ 로 주어졌을 때, $Y$ 가 1일 확률
$$ log \frac{\pi(x)} {1 - \pi(X)} = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p $$
$$ \pi(x)= \frac{exp(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p )} {1 + exp(\beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)} $$

추정

가능도(likelihood) 최대화하는 모수의 추정지 계산
- 계수 모수 추정치: $ \hat{\beta}_0 , \hat{\beta}_1 , \dots, \hat{\beta}_p $
- 오즈비 추정치: $ e^{ \hat{\beta}_0}, e^{ \hat{\beta}_1}, \dots, e^{ \hat{\beta}_p}, $
- $ log( \frac{\hat{\pi}(x)} {1 - \hat{\pi}(x)}) = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \dots + \hat{\beta}_p x_p $
- $ \hat{\pi}(x)= \frac{exp(\hat{\beta}_0 + \hat{\beta}_1 x_1 + \dots + \hat{\beta}_p x_p )} {1 + exp(\hat{\beta}_0 + \hat{\beta}_1 x_1 + \dots + \hat{\beta}_p x_p) } $
가능도 최대 추정치(maximun likelihood estimate; MLE)는 Newton-Raphson 또는 Fisher scoring 알고리즘 같은 반복적인 최적화 방법 이용
자료에 따라 수렴(convergence)이 이루어지지 않을 수 있음

구간 추정

계수 모수 $ \beta_j $ 에 대한 $ (1-\alpha) \times 100% $ 신뢰구간:
$$ \hat {\beta}_ j \pm z_{\alpha /2} \times SE(\hat{\beta}_j), \quad j = 0, 1, 2, \dots, p$$
오즈비 $e^{\beta_j}$ 데 애한 $ (1-\alpha) \times 100% $ 신뢰구간:
$$exp( \hat{\beta}_ j \pm z_{\alpha /2} \times SE(\hat{\beta}_j)), \quad j = 0, 1, 2, \dots, p$$

검정

가설: $ H_0 : \beta_1 = \beta_2 = \dots = \beta_p = 0$ vs $H_1 : not H_0 $
검정통계량
- Wald 검정
- Likelihood Ratio 검정
- Score 검정
검정통계량이 $ \chi^2_{df} (\alpha)$ 보다 크면, 즉 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $H_0$ 기각

예측

유의한 $p$ 개의 설명변수로 적합된 로지스틱 회귀모형을 이용하여 $i$ 번째 객체가 1을 취할 예측 확률 :
$$ \hat{\pi}_ i = \hat{P} (Y_i = 1 | X_{1i} = x_{1i}, \dots, X_{pi} = x_{pi}) = \frac {exp(\hat{\beta}_ 0 + \hat{\beta}_ 1 x_{1i} + \dots + \hat{\beta}_ p x_{pi} )} {1 + exp(\hat{\beta}_ 0 + \hat{\beta}_ 1 x_{1i} + \dots + \hat{\beta}_ p x_{pi}) }$$
- $\hat{\pi_i} > \pi_0 $ 이면 $\hat{Y}_ i = 1 $
- $\hat{\pi_i} \leq \pi_0 $ 이면 $\hat{Y}_i = 0 $
- $\pi_ 0 $ 는 흔히 0.5
민감도 (sensitivity) : $ P(\hat{Y}_i = 1 | Y_i =1) $
특이도 (specificity) : $ P(\hat{Y}_i = 0 | Y_i =0) $

ROC(Recievier operating characteristic) curve

모든 가능항 $\pi_0$ 에 대해 민감도와 (1-특이도)의 그림
곡선 아래 면적 (AUC; Area under the curve)이 클수록 더 좋은 예측력
랜덤하게 예측할 경우 45도 각도의 대각선

모형 진단 (Model Diagnosis)

모형의 적합성 조사는 단지 현재 모형이 다른 모형에 비해 좋은지 나쁜지 조사하지만, 그 모형의 성질에 대해서 검토하지 못함
모형적합이 좋지 않을 때 모형진단을 통해 모형적합에 개별 관측치가 얼마나 영향을 주는지를 조사해 모형의 적합성 확인

잔차분석

잔차 종류: Pearson residual, Standardized residual, Deviance residual
잔차의 절댓값이 크면 적합 결여(lack of fit)의 증거가 됨

영향력 진단

측도 : Dfbeta, c or cbar, $X^2$ or $G^2$ Difference
측도 값이 클수록 영향력 커지므로 주의깊게 관찰

모형 선택

모형은 데이터를 적합할 만큼 충분히 복잡(complex)하고 과적합(overfitting)하지 않고, 해석이 용이하도록 상대적으로 단순(simple)해야 함
변수선택 이유
- 너무 많은 설명변수 유지는 비효율적이고 예측오차 증가 시킴
- 유의한 설명변수 제외는 중요한 정보 손실 및 편향된 결과 도출 가능

기준

AIC(Akaike information criterion)
- AIC = -2log(likelihood) + 2p (p: # of parameters)
- 실제 데이터의 분포와 통계모형이 예측하는 분포 사이의 차이를 수량화한 것
- 한 모델이 새로운 데이터를 예측할 수 있는 능력은 이 모델이 기존의 데이터를 얼마나 잘 설명하는지, 그리고 그 모델이 얼마나 간단한지의 두 요소에 의해 결정된다는 것을 말해줌
- 통계모형이 참 모형인지에 대해서는 알 수 없음
- 패널티는 표본 크기에 무관
BIC(Bayesian Information Criterion)
- BIC = -2log(likelihood) + plog(n) (n: 데이터 갯수)
- 비교 대상이 되는 모형들 중 참된 모형이 있다는 가정 하에 BIC로 모형 선택을 할 경우, 샘플 크기가 증가함에 따라 참된 모형을 선택할 확률이 1에 가까워짐
- 표본 크기가 커질수록 복잡학 모형을 더 강하게 처벌
Deviance
- 한 모형이 다른 모형에 포함되어 있는 경우에만 가능
Score

변수 선택 방법

모든 가능한 모형(All Possibile Models)
- 주어진 설명변수의 모든 조합을 고려 ($2^p-1$가지 회귀모형)
전진선택법(Foward Selection)
- 가장 유의한 것으로 판단되는 변수부터 하나씩 선택하여 포함
- 더이상 유의한 변수 겂을 때 변수선택 중단
후진소거법(Backward Selection)
- 가장 유의한 것으로 판단되는 변수부터 하나씩 제거
- 더이상 유의하지 않은 변수가 없을 때 변수 제거 중단
- 가장 보수적인 방법
단계적선택법(Stepwise Selection)
- 전진선택법과 후진소거법 혼합
- 가장 유의한 것으로 판단되는 변수부터 하나씩 선택하여 포함하되 이미 포함된 변수를 유의하지 않으면 제거
대부분의 연구에서는 이미 어느정도의 candidiate이 있기 때문에 위와 같은 방법들은 사용하지 않음. 실제로는 모든 변수를 넣고 유의수준을 크게 잡아 중요변수를 놓치지 않게 선별한 후, backward를 쓰고 그 사이에 미리 제외했던 변수를 다시 넣어서 확인하는 방법 사용

기준범주 로짓 회귀모형 (Baseline-Category Logit Model)

반응변수의 범주의 수 $J$ 가 2개 이상이고 명목형(nominal)인 경우
반응확률 :
$$\pi_j = P(Y=j \mid X_1=x_1,\dots,X_p=x_p)$$
$X = (X_1, \dots, X_p)$가 $x = (x_1, \dots, x_p)$로 주어졌을 때 $Y$ 가 $j$ 범주에 속할 확률. ($\sum \pi_j =1$)
기저범수 로짓모형 :
$$log \left( \frac{\pi_j}{\pi_J} \right) = log \left(\frac{P(Y=j | X_1 =x_1, \dots, X_p=x_p)}{P(Y=J | X_1 =x_1, \dots, X_p=x_p)}\right)$$
$$\beta_{0j} + \beta_{1j}x_1+ \dots + \beta_{pj}x_p, j=1, \dots, J-1$$
$ J=2$ 인 경우 반응변수를 위한 로지스틱 회귀모형
모든 쌍의 로짓 계산이 가능
$$ log \left(\frac{\pi_a}{\pi_b}\right) = log \left(\frac{\pi_a / \pi_J}{\pi_b/ \pi_J}\right) = log \left(\frac{\pi_a}{\pi_J}\right) - log \left(\frac{\pi_b}{\pi_J}\right) $$
$$ = (\beta_{0a} + \beta_{1a}x_1 + \dots + \beta_{pa}x_p) - (\beta_{0b} + \beta_{1b}x_1 + \dots + \beta_{pb}x_p)$$
$$= (\beta_{0a} + \beta_{0b}) +(\beta_{1a} + \beta_{1b})x_1 + \dots + (\beta_{pa} + \beta_{pb}) x_p $$
모형 공식을 변형하여 $j$ 번째 범주에 속할 확률을 직접 나타낼 수 있음
$$ \pi_j(x) = \frac{exp(\beta_{0j} + \beta_{1j}x_1 + \dots + \beta_{pj}x_p)}{1+ \sum_{h=1}^{J-1} exp(\beta_{0h} + \beta_{1h}x_1 + \dots + \beta_{ph}x_p)} $$
오즈비(Odds Ratio) = $ exp(\beta_{kj}) : x_k $ 가 1단위 증가함에 따라 오즈는 $ e^{\beta_{kj}} $ 배만큼씩 곱해져서 증가

누적 로짓 회귀모형 (Cumulative Logit Model)

반응변수의 범주의 수 $J$ 가 2개 이상이고 순서형(nominal)인 경우
반응확률 :
$$\pi_j = P(Y=j | X_1 =x_1, \dots, X_p=x_p)$$
$X = (X_1, \dots, X_p)$가 $x = (x_1, \dots, x_p)$로 주어졌을 때 $Y$ 가 $j$ 범주에 속할 확률. $\sum \pi_j =1$
누적확률 :
$$ P(Y\leq j | x_1, \dots, x_p) = \pi_1(x) + \dots + \pi_j(x), j=1, \dots, J-1$$
누적로짓모형:

$$ logit [P(Y \leq j | x)] = log \left( \frac{ P(Y \leq j | X_1 = x_1, \dots, X_p=x_p) }{P(Y > j | X_1 = x_1, \dots, X_p=x_p)} \right) = log \left( \frac{ \pi_1(x) + \pi_2(x) + \dots + \pi_j(x) } { \pi_{j+1}(x) + \pi_{j+2}(x) + \dots + \pi_J(x) } \right)$$
$$ =\beta_{0j}+ \beta_1 x_1+ \dots + \beta_p x_p, j = 1, \dots , J-1$$

절편 $\beta_{0j}$를 제외하고 회귀계수 $\beta_k$ 에 $j$ 가 없음. 즉, $(J-1)$ 개 누적 로짓에 대한 효과 동일
누적로짓모형은 비례오즈(proportion odds)의 가정이 만족해야 함
비례오즈모형:
$$logit[P(Y \leq j|x')] - logit[P(Y \leq j|x^{''})] = log \frac{ P(Y \leq j | x') / P(Y < j | x') } { P(Y \leq j | x^{''}) / P(Y < j | x^{''})}$$

$$=\beta^T ( x' - x^{''})$$

$x$ 값의 거리에만 비례
score 검정으로 비례오즈 가정 만족 확인
모형 공식을 변형하여 $j$ 번째 범주에 속할 확률을 직접 나타낼 수 있음
$$P(Y \leq j) = \frac{ exp(\beta_{0j} + \beta_1 x_1 + \dots + \beta_p x_p) } {1+exp(\beta_{0j} + \beta_1 x_1 + \dots + \beta_p x_p) }$$
$$P(Y=j) = P(Y \leq j) - P(Y \leq j-1)$$
오즈비(Odds Ratio) = $ exp(\beta_{k}) : x_k $ 가 1단위 증가함에 따라 오즈는 $ e^{\beta_{k}} $ 배만큼씩 곱해져서 증가

참고문헌(추천도서)

박태성, 이승연(1999), 범주형자료분석개론 (자유아카데미)
Agresti, A.(2013), Categorical Data Analysis, New York (John Wiley & Sons, Inc.)
Agresti, A.(2007), An Introduction to Categorical Data Analysis, New York (John Wiley & Sons, Inc.)
http://www.stat.ufl.edu/~aa/

저작자표시 비영리 변경금지

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

패널자료분석(Panel Data Analysis) (1)	2020.03.04
분산분석 이론 (0)	2020.01.25
선형회귀분석 (0)	2020.01.13
기초통계이론 2 (0)	2020.01.12
기초통계이론 1 (0)	2020.01.10

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Lahong's Blog

선형회귀 및 로지스틱 회귀

소개

범주형 자료 분석

회귀모형이란

일반화선형모형 (Generalized linear model; GLM)

GLM의 세가지 요소

odds ratio

로지스틱 회귀모형

정의

해석

중위수 효과 수준 (median effect level)

오즈비(Odds ratio)의 해석

다중모형

추정

구간 추정

검정

예측

ROC(Recievier operating characteristic) curve

모형 진단 (Model Diagnosis)

잔차분석

영향력 진단

모형 선택

기준

변수 선택 방법

기준범주 로짓 회귀모형 (Baseline-Category Logit Model)

누적 로짓 회귀모형 (Cumulative Logit Model)

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

티스토리툴바

선형회귀 및 로지스틱 회귀

소개

범주형 자료 분석

회귀모형이란

일반화선형모형 (Generalized linear model; GLM)

GLM의 세가지 요소

odds ratio

로지스틱 회귀모형

정의

해석

중위수 효과 수준 (median effect level)

오즈비(Odds ratio)의 해석

다중모형

추정

구간 추정

검정

예측

ROC(Recievier operating characteristic) curve

모형 진단 (Model Diagnosis)

잔차분석

영향력 진단

모형 선택

기준

변수 선택 방법

기준범주 로짓 회귀모형 (Baseline-Category Logit Model)

누적 로짓 회귀모형 (Cumulative Logit Model)

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

'STATISTICS/고려대학교 통계연구소 2020 동계 통계워크샵' Related Articles

티스토리툴바