본문 바로가기

STATISTICS/고려대학교 통계연구소 2020 동계 통계워크샵

선형회귀분석

하기 작성된 내용들은 2020년 1월 9일 고려대학교 통계연구소 동계 워크숍 구자용 교수님(jykoo@korea.ac.kr)의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.

 

회귀분석 (Regression Analysis)

  • 회귀: 이전 발전 단계로 돌아감
  • 통계학에서는 평균(mean)으로 돌아감
  • 개념상 변수들간 함수관계를 탐색하는 방법
    • 반응변수(response variable): 출력변수(output), target variable, dependent variable
    • 예측변수(predictor): 설명변수(explanatory variable), 입력변수(input) covariate, regressor, factor, carrier, independent variable
  • 회귀분석: 변수들 사이에 함수적 관계를 탐색하는 방법
    • 관련성은 반응변수 Y와 설명변수 X들을 연결하는 방벙식 또는 모형의 형태로 표현
    • 반응변수와 설명변수 사이의 관계를 묘사하는 함수가 설명변수의 선형결합이 반응변수와 직접 연결되는 형태인 모형을 선형회귀모형이라 함
    • 반응변수가 연속형(정규분포)일 때, 선형회귀모형 사용

 

단순선형회귀

  • 반응변수 Y와 설명변수 1개의 X 사이의 선형적 관계 연구
  • 공분산과 상관계수로 변수들 사이의 방향과 강도 등의 연관성 측정
    • 상관계수는 선형(linear)관계를 측정하므로 $Cov(X, Y)=0$이 관계없음을 의미하지 않음

 

단순선형회귀모형

  • X와 Y의 관계가 아닌 parameter의 형태에 주목
  • 선형모형
    $$ Y = \beta_0 + \beta_1 X + \epsilon $$
    • 모형회귀계수 (모수, parameter)
      • $ \beta_0$ : 절편(intercept)
      • $ \beta_1$ : 기울기(slope)
      • $ \epsilon $ : 확률변동(random disturbance), 오차(error)
  • 관측개체에 따라
    $$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i=1,2, \dots, n $$
    • $y_i$는 반응변수 $Y$의 $i$번째 값
    • $x_i$는 설명변수 $X$의 $i$번째 관측값
    • $ \epsilon$에 대한 가정
      • $ \epsilon_i \sim \mathcal{N}(0, \sigma^2), \quad i=1,2, \dots, n $ : $ \epsilon $ 은 정규분포
      • $ E(\epsilon_i) = 0 , \quad i=1,2, \dots, n$ : $ \epsilon $ 의 각 평균은 0
      • $ Var(\epsilon_i) = \sigma^2, \quad i=1,2, \dots, n $ : $ \epsilon $ 의 각 분산은 동일
      • $ Cov(\epsilon_i ,\epsilon_j) = 0 \quad i \neq j $ : $ \epsilon $ 은 서로 독립

 

단순회귀모수 추정

각 점에서 회귀선까지의 수직거리(vertical distance)이 제곱합을 최소로 하는 회귀계사 값을 찾는 최소제곱추정법(Least Square Estimation; LSE) 이용
잔차
$$ d_i = y_i - b_0 -b_1 x_i, \quad i=1,2, \dots, n $$
잔차제곱합 (거리 제곱합)
$$ S(b_0, b_1) = \sum_{i=1}^{n} (d_i)^2 = \sum_{i=1}^{n} (y_i - b_0 -b_1 x_i)^2 $$
위의 값을 최소로 하는 $ \hat{\beta_0}, \hat{\beta_1} $
$$ \hat{\beta_1} = \dfrac {\sum(y_i - \bar{y})(x_i - \bar{x}) } {\sum (x_i - \bar{x})^2}, \quad \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} $$
최소제곱회귀선(least square regression line)
$$ \hat{Y} = \hat{\beta_0} + \hat{\beta_1} X $$
각 개체에 따른 적합 값(fitted residual)
$$ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i, \quad i=1,2, \dots, n $$
최소제곱잔차(least square residual)
$$ \epsilon_i = y_i - \hat{y_i}, \quad i=1,2, \dots, n $$
평균제곱오차(Mean Square Error: MSE)
$$ \hat {\sigma}^2 = \frac{ \sum e^2_i }{n-2} = \frac{ \sum (y_i - \hat{y_i})^2 }{n-2} = \frac{SSE}{n-2} = MSE $$

 

단순회귀모수 구간추정

$\beta_0$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{\beta_0}) $$
$$ SE(\hat{\beta_0}) = \hat{\sigma} \sqrt { \frac{1}{n} + \frac{\bar{x^2}}{\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$

$\beta_1$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_1} \pm t_{\alpha /2} (n-2) \times SE(\hat{\beta_1}) $$
$$ SE(\hat{\beta_1}) = \frac{\hat{\sigma}} {\sqrt {\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$

 

단순회귀모수 검정

가설
$$ H_0 : \beta_1 = 0 \quad \quad H_1 : \beta_1 \neq 0 $$
검정통계량
$$ t = \frac{\hat{\beta_1}}{SE(\hat{\beta_1}} \sim t(n-2) $$
$ |t| \geq t_{\alpha /2} (n-2) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

 

단순회귀모형의 적합성

$$ H_0 : \beta_1 = 0 \quad \quad H_1 : \beta_1 \neq 0 $$
$$ F=\frac{MSR}{MSE} \sim F(1, n-2)\quad \quad under H_0$$
$ F \geq F_{\alpha} (1, n-2) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

t와 F값은 동시에 증가 또는 감소하므로 단일회귀분석에서는 F가 아닌 t-검정으로 충분

결정계수 (Coefficient of Determination)

$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, \quad 0 \leq R^2 \leq 1 $$

  • 반응변수 $Y$ 의 전체 변이 중 설명변수 $X$ 에 의해 설명되는 비율
  • $ R^2 $ 이 1에 가까울수록 (=SSE가 0에 가까울수록) $X$ 가 $Y$ 의 변이 중 많은 부분을 설명한다는 것을 의미
  • 반응변수 $Y$ 와 설명변수 $X$ 사이의 상관계수의 제곱과 같음

 

단순회귀모형의 예측

적합된 회귀방정식을 예측에 사용

1) 설명변수의 어떤 선택된 값 $x_0$ 에 대응되는 반응변수의 값에 대한 예측 (좀 더 어려움)

  • 예측값
    $$ \hat{y_0} = \hat{\beta_0} + \hat{\beta_1} x_0 $$
  • 예측구간
    $$ \hat{y_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{y_0}) $$
    $$ SE(\hat{y_0}) = \hat{\sigma} \sqrt { 1+ \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} } $$

2) 설명변수의 어떤 선택된 값 $x_0$ 에 대응되는 반응변수의 평균값 $ \mu_0 $ 에 대한 추정값

  • 추정값
    $$ \hat{\mu_0} - \hat{\beta_0} + \hat{\beta_1 x_0} $$
  • 신뢰구간
    $$ \hat{\mu_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{\mu_0})$$
    $$ SE(\hat{\mu_0}) = \hat{\sigma} \sqrt {\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} } $$

 

 

다중선형회귀 (Mutiple Linear Regression)

  • 반응변수 $Y$ 와 여러 개의 설명변수 $X-1, X_2, \dots, X_n$ 사이의 선형적 관계 연구
    $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p +\epsilon $$
  • 최소제곱잔차(least square residual)

 

다중선형회귀모형

  • 관측개체에 따라
    $$ y_i = \beta_0 + \beta_1 x_{1i} + \dots + \beta_p x_{pi} + \epsilon_i, \quad i=1,2, \dots, n $$
    • $y_i$는 반응변수 $Y$의 $i$번째 값
    • $x_{ij}$는 $i$ 번째 설명변수 $X_i$의 $j$번째 관측값

 

다중선형회귀모수 추정

각 점에서 회귀선까지의 수직거리(vertical distance)이 제곱합을 최소로 하는 회귀계수 값을 찾는 최소제곱추정법(Least Square Estimation; LSE) 이용
잔차
$$ d_i = y_i - b_0 - b_1 x_{1i} - \dots - b_p x_{pi}, \quad i=1,2, \dots, n $$
잔차제곱합 (거리 제곱합)
$$ S(b_0, b_1, \dots, b_p) = \sum_{i=1}^{n} (d_i)^2 = \sum_{i=1}^{n} (y_i - b_0 -b_1 x_{1i} - \dots - b_p x_{pi})^2 $$
위의 값을 최소로 하는 $ \hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_p} $
$$ \hat{\beta} = (X'X)^{-1} X' Y $$

 

다중선형회귀모수 구간추정

$\beta_0$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\beta_0}) $$
$$ SE(\hat{\beta_0}) = \hat{\sigma} \sqrt { \frac{1}{n} + \frac{\bar{x^2}}{\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$

$\beta_j$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_j} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\beta_j}) \quad j=1, 2, \dots , p $$

 

다중선형회귀모수 검정

가설
$$ H_0 : \beta_j = 0 \quad \quad H_1 : \beta_j \neq 0 $$

검정통계량
$$ t = \frac{\hat{\beta_j}}{SE(\hat{\beta_j}} \sim t(n-p-1) $$

$ |t| \geq t_{\alpha /2} (n-p-1) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

 

다중선형모형의 적합성

$$ H_0 : \beta_1 = \beta_2 = \dots = \beta_p = 0 \quad \quad H_1 : not H_0 $$
$$ F=\frac{MSR}{MSE} \sim F(p, n-p-1) \quad \quad under H_0$$
$ F \geq F_{\alpha} (p, n-p-1) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

  • 결정계수 (Coefficient of Determination)
    $$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, \quad 0 \leq R^2 \leq 1 $$
  • 수정결정계수 (Adjusted $R^2$)
    $$ R^2_\alpha = 1 - \frac{n-1}{n-p-1}(1- R^2) $$
    • 셜명변수의 수가 다른 모형 비교시 종종 사용

 

다중회귀모형의 예측

적합된 다중회귀방정식을 예측에 사용

1) 설명변수의 어떤 선택된 값 $(x_{10}, x_{20}, \dots , x_{p0}) $ 에 대응되는 반응변수의 값에 대한 예측 (좀 더 어려움)

  • 예측값
    $$ \hat{y_0} = \hat{\beta_0} + \hat{\beta_1} x_{10} + \dots + \hat{\beta_p} x_{p0} $$
  • 예측구간 ($ SE(\hat{y_0}) = \hat{y_0} $ 의 표준오차)
    $$ \hat{y_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{y_0})$$

2) 설명변수의 어떤 선택된 값 $(x_{10}, x_{20}, \dots , x_{p0})$ 에 대응되는 반응변수의 평균값 $ \mu_0 $ 에 대한 추정값

  • 추정값
    $$ \hat{\mu_0} - \hat{\beta_0} + \hat{\beta_1} x_{10} + \dots + \hat{\beta_p} x_{p0} $$
  • 예측구간 ($ SE(\hat{\mu_0}) = \hat{\mu_0} $ 의 표준오차)
    $$ \hat{\mu_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\mu_0})$$

 

 

회귀진단

  • 주어진 데이터에 모형을 적합함에 있어서 한 개 또는 몇 개의 관측개체들에 의해 적합이 과도하게 결정되는 것은 바람직하지 않음
  • 표준적인 회귀의 가정들이 만족될 때 모형이 유효한 의미를 가짐
  • 가정이 위반된다면 결과가 유효하지 않으며 심각한 오류 발생 가능
  • 가정에 대한 위반을 검출하고 수정해야 신뢰성 있는 결과 얻을 수 있음

 

가정

  • 모형의 형태에 대한 가정
    • 선형성 (Linearity): 반응변수 Y와 설명변수 $X_1, X_2, \dots , X_p$ 사이의 선형 관계
    • 선형회귀분석의 선형과는 다름
  • 오차에 대한 가정
    • 정규성 (Normality) : $ \epsilon_i \sim \mathcal{N}(0, \sigma^2), \quad i=1,2, \dots, n $
    • 등분산성 (Homoscedasticitiy) : $ Var(\epsilon_i) = \sigma^2, \quad i=1,2, \dots, n $
    • 독립성 (Independent-Error) : $ Cov(\epsilon_i ,\epsilon_j) = 0 \quad i \neq j $
  • 설명변수에 대한 가정
    • 설명변수는 확룰변수가 아니고 오차 없이 측정
    • 공선성 (Collinearity) 없음 : $X_1, X_2, \dots , X_p$ 는 선형독립
  • 관측개체에 대한 가정
    • 각 개체가 동등한 역할

 

잔차

$$ \epsilon_i = y_i - \hat{y_i}, \quad i=1,2, \dots, n $$
$$ E(\epsilon_i ) = 0, \quad \quad Var(\epsilon_i ) = \sigma^2 (1-h_{ij}) $$
$$ h_{ij} = \frac{1}{n} + \frac{(x_i - \bar{x})(x_j - \bar{x})} {\sqrt {\sum_{k} (x_k - \bar{x})^2} } $$
$$ h_{ii} = \frac{1}{n} + \frac{(x_i - \bar{x})^2} {\sqrt {\sum_{k} (x_k - \bar{x})^2} }$$

  • 표준화잔차(Standardized Residual)
    • 내표준화잔차(Internally Standardized Residual)
      $$ r_i = \frac{e_i} {\hat{\sigma} \sqrt{1-h_{ij}} } $$
    • 외표준화잔차(Externally Standardized Residual)
      $$ r_i = \frac{e_i} {\hat{\sigma_{(i)}} \sqrt{1-h_{ij}} }, \quad \quad \hat{\sigma_{(i)}} = \frac{SSE_{(i)}}{n-p-2} $$
      $$ \sum e_i = 0, \quad \sum r_i \neq 0, \quad \sum r_i^* = 0, \quad r^*_i \sim t(n-p-2) $$
  • 잔차에 패턴이나 경향이 있으면 안됨

 

선형성

  • 산점도행렬(scatterplot matrix)
    • 만족하지 않으면 변수변환, 다항회귀, 비선형회귀 고려
  • 잔차그림(residual plot)
    • 잔차가 랜덤해야 선형성 만족
    • 영향성을 찾을 수 없음

 

정규성

  • 정규확률그림(normal probability plot; Q-Q plot)
    • 대각선과 일치하면 정규성 만족
    • 만족하지 않으면 변수변환 또는 비모수회귀 고려

 

등분산성

  • 잔차가 랜덤해야 등분산성 만족
  • 만족하지 않으면 변수변환, 가중최소제곱법(weighted LSE) 고려

 

독립성

  • 지수그림(Index plot)
    • 잔차가 0 주위에 랜덤하게 흩어져 있어야 독립성 만족
  • Durbin-Watson 통계량 : 잔차의 독립성을 확인하기 위한 테스트로서, 잔차끼리의 자기상관성 여부를 판단
  • $$ D = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^2}{\sum_{t=1}^{n} e^t_2} \approx 2(1-\hat{p}) $$
    • D = 4 : 음의 자기상관
    • D = 2 : 독립
    • D = 0 : 양의 자기상관
    • 만족하지 않으면 자기상관 제거하고 다시 모수추정 또는 시계열분석 고려
  • 주의
    • $ e_t$ 와 $e_{t-1}$ 만의 상관관계를 파악할 뿐 $ e_t$ 와 $e_{t-k}$ 의 관꼐에 대해서 알 수 없음 
    • 자기상관성이 있으면 독립이 아니지만, 자기상관성이 없어도 독립일 수 있음
    • 아리마 모델 잔차 적용 불가 (자기상관함수, 륭-박스 테스트 사용)

 

다중공선성

  • 설명변수들 간에 선형적 연관관계가 있는 상태
  • 다중공선성 문제가 있을 떄, 연관된 설명변수의 추정오차가 커져 통계적으로 유의하지 않을 수 있음
  • 실제 설명변수들 간에 선형적 연관관계가 전혀 없는 경우는 드물지만, 강한 선형관계가 있을 경우 결과 왜곡 가능성이 높음
  • 가장 크게 관여되는 설명변수를 제거하거나 Ridge Regression, Principal Components Regression(PCR), Partial Least Square Regression(PLSR) 고려

1) 분산확대인자(Variance Inflation Factor)
$$ VIF_j = \frac{1}{1-R^2_j}, \quad \quad j=1, 2, \dots, p $$

  • $ R^2_j : X_j $ 와 나머지 설명변수들 사이의 결정계수
  • $ VIF_j $가 10보다 크면 다중공선성 문제 있음
  • Tolerance value = $ 1 / VIF_j $가 0.1보다 작으면 다중공선성 문제 있음

2) 상태지수(Condition Index)
$$ C_j = \sqrt{ \frac {\lambda_{max}} {\lambda_j} }, \quad \quad j=1, 2, \dots, p $$

  • $ \lambda_{max} $ : 상관행렬의 최대고유값, $ \lambda_j $ 는 $j$ 번째 고유값
  • 싱태지수가 클수록 다중공선성 정도 심함
  • 상태지수가 10이상이면 경계, 100 이상이면 심각
  • 분산비율(proportion of variation)이 0.5 이상이면 다중공선성 문제 있음

 

영향력 (influence point)

  • 어떤 점이 제외되었을 때 적합모형 (추정된 회귀계수, 적합값, t값 등)에 큰 영향을 준다면 그 점을 영향력이 큰 개체라 함
  • 반응변수의 어떤 값이 데이터으 ㅣ일반적인 경향을 따르지 않을 때 그 점을 특이치(outlier)라 함
  • 가면과 수령 문제
    • 가면(masking)문제: 데이터가 특이값을 가지고 있으나 검출하지 못하는 것
    • 수령(swamping)문제: 특이값이 아닌 점을 특이값으로 간주하는 것
    • 잔차그림을 살펴보는 것으로 충분치 않음 (fake positive)

1) Leverage Value
$$ h_i = x_i (X'X)^{-1} x^{'}_i \quad \quad i=1, 2, \dots, n $$

$ h_i > \frac{2(p+1)}{n} $ 인 경우 $i$ 번째 개체가 영향력 크다고 함

2) Cook's Distance
$$ COOKD_i = \frac {\sum_{j=1}^{n} (\hat{y_j} -\hat{y_{j(i)}})^2 } {(p+1) \hat{\sigma^2} } = \frac {}{} \times \frac {h_{ij}}{1-h_{ij}} $$

$ COOKD_i $ 값이 큰 경우 $i$ 번째 개체가 영향력 크다고 함

3) DIFFITS
4) COVRATIO
5) DFBETAS

 

 

질적 설명변수

  • 질적(qualitative) 또는 범주형 (categorical) 설명변수가 반응변수의 변화를 설명하는데 유용할 수 있음
  • 가변수(dummy variable)로 변환하여 사용

 

 

변수선택

  • 모형은 데이터를 적합할 만큼 충분히 복잡(complex)해야 하고 과적합(overfitting)하지 않게 해석할 수 있도록 상대적으로 단순(simple)해야 함
  • 변수선택 이유
    • 너무 많은 설명변수 유지는 비효율적이고 예측오차 증가시킴
    • 유의한 설명변수 제외는 중요한 정보 손실과 편향된 결과 도출 가능성 있음

 

모형선택기준

1) Adjusted $R^2_p$ : 가장 큰 모형 선택
$$ Adj R^2_p = 1 - \frac{n-1} {n-p-1 } (1-R^2_p ) = 1 - \frac{n-1}{n-p-1} \times \frac{SSE_p}{SST} $$

2) Mallow $C_p$ : $ C_p \approx p+1$ 인 가장 작은 $p$ 찾을 수 있을 때 해당 모형 선택
$$ C_p = \frac{SSE_p} {\hat{\sigma^2}} + (2p-n) $$

3) Akaike Information Criterion (AIC) : AIC가 가장 작은 모형 선택
$$ AIC_p = n \log (SSE_p /n) +2(p+1) $$

 

변수선택방법

1) 모든 가능한 모형 (All Positive models)

  • 주어진 설명변수의 모든 조합을 고려
  • $2^p - 1$ 가지 회귀모형

2) 전진선택법 (Forward Selection)

  • 가장 유위한 것으로 판단되는 변수부터 하나씩 선택해 포함
  • 더이상 유의한 변수가 없을 때 변수선택 중단

3) 후진소거법 (Backward Elimination)

  • 가장 유의한 것으로 판단되는 변수부터 하나씩 제거
  • 더이상 유의하지 않은 변수가 없을 때 변수 제거 중단

4) 단계적선택법 (Stepwise Method)

  • 전진선택법과 후진소거법 혼합
  • 가장 유의한 것으로 판단되는 변수부터 하나씩 선택하여 포함하되 이미 포함된 변수를 유의하지 않으면 제거

 

 

참고문헌(추천도서)

  • 김기영 등 (2009). 예제를 통한회귀분석 (자유아카데미)
  • 허명회, 서혜선 (1994). SAS 회귀분석 (자유아카데미)
  • Chatterjee, S. and Hadi, A.S. Regression Analysis by Example (Wiley)
  • Faraway, J.J. (2005). Linear Models with R (Chapman & Hall.CRC)