하기 작성된 내용들은 2020년 1월 9일 고려대학교 통계연구소 동계 워크숍 구자용 교수님(jykoo@korea.ac.kr)의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.
회귀분석 (Regression Analysis)
- 회귀: 이전 발전 단계로 돌아감
- 통계학에서는 평균(mean)으로 돌아감
- 개념상 변수들간 함수관계를 탐색하는 방법
- 반응변수(response variable): 출력변수(output), target variable, dependent variable
- 예측변수(predictor): 설명변수(explanatory variable), 입력변수(input) covariate, regressor, factor, carrier, independent variable
- 회귀분석: 변수들 사이에 함수적 관계를 탐색하는 방법
- 관련성은 반응변수 Y와 설명변수 X들을 연결하는 방벙식 또는 모형의 형태로 표현
- 반응변수와 설명변수 사이의 관계를 묘사하는 함수가 설명변수의 선형결합이 반응변수와 직접 연결되는 형태인 모형을 선형회귀모형이라 함
- 반응변수가 연속형(정규분포)일 때, 선형회귀모형 사용
단순선형회귀
- 반응변수 Y와 설명변수 1개의 X 사이의 선형적 관계 연구
- 공분산과 상관계수로 변수들 사이의 방향과 강도 등의 연관성 측정
- 상관계수는 선형(linear)관계를 측정하므로 $Cov(X, Y)=0$이 관계없음을 의미하지 않음
단순선형회귀모형
- X와 Y의 관계가 아닌 parameter의 형태에 주목
- 선형모형
$$ Y = \beta_0 + \beta_1 X + \epsilon $$- 모형회귀계수 (모수, parameter)
- $ \beta_0$ : 절편(intercept)
- $ \beta_1$ : 기울기(slope)
- $ \epsilon $ : 확률변동(random disturbance), 오차(error)
- 모형회귀계수 (모수, parameter)
- 관측개체에 따라
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i=1,2, \dots, n $$- $y_i$는 반응변수 $Y$의 $i$번째 값
- $x_i$는 설명변수 $X$의 $i$번째 관측값
- $ \epsilon$에 대한 가정
- $ \epsilon_i \sim \mathcal{N}(0, \sigma^2), \quad i=1,2, \dots, n $ : $ \epsilon $ 은 정규분포
- $ E(\epsilon_i) = 0 , \quad i=1,2, \dots, n$ : $ \epsilon $ 의 각 평균은 0
- $ Var(\epsilon_i) = \sigma^2, \quad i=1,2, \dots, n $ : $ \epsilon $ 의 각 분산은 동일
- $ Cov(\epsilon_i ,\epsilon_j) = 0 \quad i \neq j $ : $ \epsilon $ 은 서로 독립
단순회귀모수 추정
각 점에서 회귀선까지의 수직거리(vertical distance)이 제곱합을 최소로 하는 회귀계사 값을 찾는 최소제곱추정법(Least Square Estimation; LSE) 이용
잔차
$$ d_i = y_i - b_0 -b_1 x_i, \quad i=1,2, \dots, n $$
잔차제곱합 (거리 제곱합)
$$ S(b_0, b_1) = \sum_{i=1}^{n} (d_i)^2 = \sum_{i=1}^{n} (y_i - b_0 -b_1 x_i)^2 $$
위의 값을 최소로 하는 $ \hat{\beta_0}, \hat{\beta_1} $
$$ \hat{\beta_1} = \dfrac {\sum(y_i - \bar{y})(x_i - \bar{x}) } {\sum (x_i - \bar{x})^2}, \quad \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} $$
최소제곱회귀선(least square regression line)
$$ \hat{Y} = \hat{\beta_0} + \hat{\beta_1} X $$
각 개체에 따른 적합 값(fitted residual)
$$ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i, \quad i=1,2, \dots, n $$
최소제곱잔차(least square residual)
$$ \epsilon_i = y_i - \hat{y_i}, \quad i=1,2, \dots, n $$
평균제곱오차(Mean Square Error: MSE)
$$ \hat {\sigma}^2 = \frac{ \sum e^2_i }{n-2} = \frac{ \sum (y_i - \hat{y_i})^2 }{n-2} = \frac{SSE}{n-2} = MSE $$
단순회귀모수 구간추정
$\beta_0$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{\beta_0}) $$
$$ SE(\hat{\beta_0}) = \hat{\sigma} \sqrt { \frac{1}{n} + \frac{\bar{x^2}}{\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$
$\beta_1$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_1} \pm t_{\alpha /2} (n-2) \times SE(\hat{\beta_1}) $$
$$ SE(\hat{\beta_1}) = \frac{\hat{\sigma}} {\sqrt {\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$
단순회귀모수 검정
가설
$$ H_0 : \beta_1 = 0 \quad \quad H_1 : \beta_1 \neq 0 $$
검정통계량
$$ t = \frac{\hat{\beta_1}}{SE(\hat{\beta_1}} \sim t(n-2) $$
$ |t| \geq t_{\alpha /2} (n-2) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)
단순회귀모형의 적합성
$$ H_0 : \beta_1 = 0 \quad \quad H_1 : \beta_1 \neq 0 $$
$$ F=\frac{MSR}{MSE} \sim F(1, n-2)\quad \quad under H_0$$
$ F \geq F_{\alpha} (1, n-2) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)
t와 F값은 동시에 증가 또는 감소하므로 단일회귀분석에서는 F가 아닌 t-검정으로 충분
결정계수 (Coefficient of Determination)
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, \quad 0 \leq R^2 \leq 1 $$
- 반응변수 $Y$ 의 전체 변이 중 설명변수 $X$ 에 의해 설명되는 비율
- $ R^2 $ 이 1에 가까울수록 (=SSE가 0에 가까울수록) $X$ 가 $Y$ 의 변이 중 많은 부분을 설명한다는 것을 의미
- 반응변수 $Y$ 와 설명변수 $X$ 사이의 상관계수의 제곱과 같음
단순회귀모형의 예측
적합된 회귀방정식을 예측에 사용
1) 설명변수의 어떤 선택된 값 $x_0$ 에 대응되는 반응변수의 값에 대한 예측 (좀 더 어려움)
- 예측값
$$ \hat{y_0} = \hat{\beta_0} + \hat{\beta_1} x_0 $$ - 예측구간
$$ \hat{y_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{y_0}) $$
$$ SE(\hat{y_0}) = \hat{\sigma} \sqrt { 1+ \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} } $$
2) 설명변수의 어떤 선택된 값 $x_0$ 에 대응되는 반응변수의 평균값 $ \mu_0 $ 에 대한 추정값
- 추정값
$$ \hat{\mu_0} - \hat{\beta_0} + \hat{\beta_1 x_0} $$ - 신뢰구간
$$ \hat{\mu_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{\mu_0})$$
$$ SE(\hat{\mu_0}) = \hat{\sigma} \sqrt {\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} } $$
다중선형회귀 (Mutiple Linear Regression)
- 반응변수 $Y$ 와 여러 개의 설명변수 $X-1, X_2, \dots, X_n$ 사이의 선형적 관계 연구
$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p +\epsilon $$ - 최소제곱잔차(least square residual)
다중선형회귀모형
- 관측개체에 따라
$$ y_i = \beta_0 + \beta_1 x_{1i} + \dots + \beta_p x_{pi} + \epsilon_i, \quad i=1,2, \dots, n $$- $y_i$는 반응변수 $Y$의 $i$번째 값
- $x_{ij}$는 $i$ 번째 설명변수 $X_i$의 $j$번째 관측값
다중선형회귀모수 추정
각 점에서 회귀선까지의 수직거리(vertical distance)이 제곱합을 최소로 하는 회귀계수 값을 찾는 최소제곱추정법(Least Square Estimation; LSE) 이용
잔차
$$ d_i = y_i - b_0 - b_1 x_{1i} - \dots - b_p x_{pi}, \quad i=1,2, \dots, n $$
잔차제곱합 (거리 제곱합)
$$ S(b_0, b_1, \dots, b_p) = \sum_{i=1}^{n} (d_i)^2 = \sum_{i=1}^{n} (y_i - b_0 -b_1 x_{1i} - \dots - b_p x_{pi})^2 $$
위의 값을 최소로 하는 $ \hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_p} $
$$ \hat{\beta} = (X'X)^{-1} X' Y $$
다중선형회귀모수 구간추정
$\beta_0$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\beta_0}) $$
$$ SE(\hat{\beta_0}) = \hat{\sigma} \sqrt { \frac{1}{n} + \frac{\bar{x^2}}{\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$
$\beta_j$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_j} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\beta_j}) \quad j=1, 2, \dots , p $$
다중선형회귀모수 검정
가설
$$ H_0 : \beta_j = 0 \quad \quad H_1 : \beta_j \neq 0 $$
검정통계량
$$ t = \frac{\hat{\beta_j}}{SE(\hat{\beta_j}} \sim t(n-p-1) $$
$ |t| \geq t_{\alpha /2} (n-p-1) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)
다중선형모형의 적합성
$$ H_0 : \beta_1 = \beta_2 = \dots = \beta_p = 0 \quad \quad H_1 : not H_0 $$
$$ F=\frac{MSR}{MSE} \sim F(p, n-p-1) \quad \quad under H_0$$
$ F \geq F_{\alpha} (p, n-p-1) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)
- 결정계수 (Coefficient of Determination)
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, \quad 0 \leq R^2 \leq 1 $$ - 수정결정계수 (Adjusted $R^2$)
$$ R^2_\alpha = 1 - \frac{n-1}{n-p-1}(1- R^2) $$- 셜명변수의 수가 다른 모형 비교시 종종 사용
다중회귀모형의 예측
적합된 다중회귀방정식을 예측에 사용
1) 설명변수의 어떤 선택된 값 $(x_{10}, x_{20}, \dots , x_{p0}) $ 에 대응되는 반응변수의 값에 대한 예측 (좀 더 어려움)
- 예측값
$$ \hat{y_0} = \hat{\beta_0} + \hat{\beta_1} x_{10} + \dots + \hat{\beta_p} x_{p0} $$ - 예측구간 ($ SE(\hat{y_0}) = \hat{y_0} $ 의 표준오차)
$$ \hat{y_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{y_0})$$
2) 설명변수의 어떤 선택된 값 $(x_{10}, x_{20}, \dots , x_{p0})$ 에 대응되는 반응변수의 평균값 $ \mu_0 $ 에 대한 추정값
- 추정값
$$ \hat{\mu_0} - \hat{\beta_0} + \hat{\beta_1} x_{10} + \dots + \hat{\beta_p} x_{p0} $$ - 예측구간 ($ SE(\hat{\mu_0}) = \hat{\mu_0} $ 의 표준오차)
$$ \hat{\mu_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\mu_0})$$
회귀진단
- 주어진 데이터에 모형을 적합함에 있어서 한 개 또는 몇 개의 관측개체들에 의해 적합이 과도하게 결정되는 것은 바람직하지 않음
- 표준적인 회귀의 가정들이 만족될 때 모형이 유효한 의미를 가짐
- 가정이 위반된다면 결과가 유효하지 않으며 심각한 오류 발생 가능
- 가정에 대한 위반을 검출하고 수정해야 신뢰성 있는 결과 얻을 수 있음
가정
- 모형의 형태에 대한 가정
- 선형성 (Linearity): 반응변수 Y와 설명변수 $X_1, X_2, \dots , X_p$ 사이의 선형 관계
- 선형회귀분석의 선형과는 다름
- 오차에 대한 가정
- 정규성 (Normality) : $ \epsilon_i \sim \mathcal{N}(0, \sigma^2), \quad i=1,2, \dots, n $
- 등분산성 (Homoscedasticitiy) : $ Var(\epsilon_i) = \sigma^2, \quad i=1,2, \dots, n $
- 독립성 (Independent-Error) : $ Cov(\epsilon_i ,\epsilon_j) = 0 \quad i \neq j $
- 설명변수에 대한 가정
- 설명변수는 확룰변수가 아니고 오차 없이 측정
- 공선성 (Collinearity) 없음 : $X_1, X_2, \dots , X_p$ 는 선형독립
- 관측개체에 대한 가정
- 각 개체가 동등한 역할
잔차
$$ \epsilon_i = y_i - \hat{y_i}, \quad i=1,2, \dots, n $$
$$ E(\epsilon_i ) = 0, \quad \quad Var(\epsilon_i ) = \sigma^2 (1-h_{ij}) $$
$$ h_{ij} = \frac{1}{n} + \frac{(x_i - \bar{x})(x_j - \bar{x})} {\sqrt {\sum_{k} (x_k - \bar{x})^2} } $$
$$ h_{ii} = \frac{1}{n} + \frac{(x_i - \bar{x})^2} {\sqrt {\sum_{k} (x_k - \bar{x})^2} }$$
- 표준화잔차(Standardized Residual)
- 내표준화잔차(Internally Standardized Residual)
$$ r_i = \frac{e_i} {\hat{\sigma} \sqrt{1-h_{ij}} } $$ - 외표준화잔차(Externally Standardized Residual)
$$ r_i = \frac{e_i} {\hat{\sigma_{(i)}} \sqrt{1-h_{ij}} }, \quad \quad \hat{\sigma_{(i)}} = \frac{SSE_{(i)}}{n-p-2} $$
$$ \sum e_i = 0, \quad \sum r_i \neq 0, \quad \sum r_i^* = 0, \quad r^*_i \sim t(n-p-2) $$
- 내표준화잔차(Internally Standardized Residual)
- 잔차에 패턴이나 경향이 있으면 안됨
선형성
- 산점도행렬(scatterplot matrix)
- 만족하지 않으면 변수변환, 다항회귀, 비선형회귀 고려
- 잔차그림(residual plot)
- 잔차가 랜덤해야 선형성 만족
- 영향성을 찾을 수 없음
정규성
- 정규확률그림(normal probability plot; Q-Q plot)
- 대각선과 일치하면 정규성 만족
- 만족하지 않으면 변수변환 또는 비모수회귀 고려
등분산성
- 잔차가 랜덤해야 등분산성 만족
- 만족하지 않으면 변수변환, 가중최소제곱법(weighted LSE) 고려
독립성
- 지수그림(Index plot)
- 잔차가 0 주위에 랜덤하게 흩어져 있어야 독립성 만족
- Durbin-Watson 통계량 : 잔차의 독립성을 확인하기 위한 테스트로서, 잔차끼리의 자기상관성 여부를 판단
- $$ D = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^2}{\sum_{t=1}^{n} e^t_2} \approx 2(1-\hat{p}) $$
- D = 4 : 음의 자기상관
- D = 2 : 독립
- D = 0 : 양의 자기상관
- 만족하지 않으면 자기상관 제거하고 다시 모수추정 또는 시계열분석 고려
- 주의
- $ e_t$ 와 $e_{t-1}$ 만의 상관관계를 파악할 뿐 $ e_t$ 와 $e_{t-k}$ 의 관꼐에 대해서 알 수 없음
- 자기상관성이 있으면 독립이 아니지만, 자기상관성이 없어도 독립일 수 있음
- 아리마 모델 잔차 적용 불가 (자기상관함수, 륭-박스 테스트 사용)
다중공선성
- 설명변수들 간에 선형적 연관관계가 있는 상태
- 다중공선성 문제가 있을 떄, 연관된 설명변수의 추정오차가 커져 통계적으로 유의하지 않을 수 있음
- 실제 설명변수들 간에 선형적 연관관계가 전혀 없는 경우는 드물지만, 강한 선형관계가 있을 경우 결과 왜곡 가능성이 높음
- 가장 크게 관여되는 설명변수를 제거하거나 Ridge Regression, Principal Components Regression(PCR), Partial Least Square Regression(PLSR) 고려
1) 분산확대인자(Variance Inflation Factor)
$$ VIF_j = \frac{1}{1-R^2_j}, \quad \quad j=1, 2, \dots, p $$
- $ R^2_j : X_j $ 와 나머지 설명변수들 사이의 결정계수
- $ VIF_j $가 10보다 크면 다중공선성 문제 있음
- Tolerance value = $ 1 / VIF_j $가 0.1보다 작으면 다중공선성 문제 있음
2) 상태지수(Condition Index)
$$ C_j = \sqrt{ \frac {\lambda_{max}} {\lambda_j} }, \quad \quad j=1, 2, \dots, p $$
- $ \lambda_{max} $ : 상관행렬의 최대고유값, $ \lambda_j $ 는 $j$ 번째 고유값
- 싱태지수가 클수록 다중공선성 정도 심함
- 상태지수가 10이상이면 경계, 100 이상이면 심각
- 분산비율(proportion of variation)이 0.5 이상이면 다중공선성 문제 있음
영향력 (influence point)
- 어떤 점이 제외되었을 때 적합모형 (추정된 회귀계수, 적합값, t값 등)에 큰 영향을 준다면 그 점을 영향력이 큰 개체라 함
- 반응변수의 어떤 값이 데이터으 ㅣ일반적인 경향을 따르지 않을 때 그 점을 특이치(outlier)라 함
- 가면과 수령 문제
- 가면(masking)문제: 데이터가 특이값을 가지고 있으나 검출하지 못하는 것
- 수령(swamping)문제: 특이값이 아닌 점을 특이값으로 간주하는 것
- 잔차그림을 살펴보는 것으로 충분치 않음 (fake positive)
1) Leverage Value
$$ h_i = x_i (X'X)^{-1} x^{'}_i \quad \quad i=1, 2, \dots, n $$
$ h_i > \frac{2(p+1)}{n} $ 인 경우 $i$ 번째 개체가 영향력 크다고 함
2) Cook's Distance
$$ COOKD_i = \frac {\sum_{j=1}^{n} (\hat{y_j} -\hat{y_{j(i)}})^2 } {(p+1) \hat{\sigma^2} } = \frac {}{} \times \frac {h_{ij}}{1-h_{ij}} $$
$ COOKD_i $ 값이 큰 경우 $i$ 번째 개체가 영향력 크다고 함
3) DIFFITS
4) COVRATIO
5) DFBETAS
질적 설명변수
- 질적(qualitative) 또는 범주형 (categorical) 설명변수가 반응변수의 변화를 설명하는데 유용할 수 있음
- 가변수(dummy variable)로 변환하여 사용
변수선택
- 모형은 데이터를 적합할 만큼 충분히 복잡(complex)해야 하고 과적합(overfitting)하지 않게 해석할 수 있도록 상대적으로 단순(simple)해야 함
- 변수선택 이유
- 너무 많은 설명변수 유지는 비효율적이고 예측오차 증가시킴
- 유의한 설명변수 제외는 중요한 정보 손실과 편향된 결과 도출 가능성 있음
모형선택기준
1) Adjusted $R^2_p$ : 가장 큰 모형 선택
$$ Adj R^2_p = 1 - \frac{n-1} {n-p-1 } (1-R^2_p ) = 1 - \frac{n-1}{n-p-1} \times \frac{SSE_p}{SST} $$
2) Mallow $C_p$ : $ C_p \approx p+1$ 인 가장 작은 $p$ 찾을 수 있을 때 해당 모형 선택
$$ C_p = \frac{SSE_p} {\hat{\sigma^2}} + (2p-n) $$
3) Akaike Information Criterion (AIC) : AIC가 가장 작은 모형 선택
$$ AIC_p = n \log (SSE_p /n) +2(p+1) $$
변수선택방법
1) 모든 가능한 모형 (All Positive models)
- 주어진 설명변수의 모든 조합을 고려
- $2^p - 1$ 가지 회귀모형
2) 전진선택법 (Forward Selection)
- 가장 유위한 것으로 판단되는 변수부터 하나씩 선택해 포함
- 더이상 유의한 변수가 없을 때 변수선택 중단
3) 후진소거법 (Backward Elimination)
- 가장 유의한 것으로 판단되는 변수부터 하나씩 제거
- 더이상 유의하지 않은 변수가 없을 때 변수 제거 중단
4) 단계적선택법 (Stepwise Method)
- 전진선택법과 후진소거법 혼합
- 가장 유의한 것으로 판단되는 변수부터 하나씩 선택하여 포함하되 이미 포함된 변수를 유의하지 않으면 제거
참고문헌(추천도서)
- 김기영 등 (2009). 예제를 통한회귀분석 (자유아카데미)
- 허명회, 서혜선 (1994). SAS 회귀분석 (자유아카데미)
- Chatterjee, S. and Hadi, A.S. Regression Analysis by Example (Wiley)
- Faraway, J.J. (2005). Linear Models with R (Chapman & Hall.CRC)
'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글
패널자료분석(Panel Data Analysis) (1) | 2020.03.04 |
---|---|
분산분석 이론 (0) | 2020.01.25 |
선형회귀 및 로지스틱 회귀 (0) | 2020.01.19 |
기초통계이론 2 (0) | 2020.01.12 |
기초통계이론 1 (0) | 2020.01.10 |