선형회귀분석

하기 작성된 내용들은 2020년 1월 9일 고려대학교 통계연구소 동계 워크숍 구자용 교수님(jykoo@korea.ac.kr)의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.

회귀분석 (Regression Analysis)

회귀: 이전 발전 단계로 돌아감
통계학에서는 평균(mean)으로 돌아감
개념상 변수들간 함수관계를 탐색하는 방법
- 반응변수(response variable): 출력변수(output), target variable, dependent variable
- 예측변수(predictor): 설명변수(explanatory variable), 입력변수(input) covariate, regressor, factor, carrier, independent variable
회귀분석: 변수들 사이에 함수적 관계를 탐색하는 방법
- 관련성은 반응변수 Y와 설명변수 X들을 연결하는 방벙식 또는 모형의 형태로 표현
- 반응변수와 설명변수 사이의 관계를 묘사하는 함수가 설명변수의 선형결합이 반응변수와 직접 연결되는 형태인 모형을 선형회귀모형이라 함
- 반응변수가 연속형(정규분포)일 때, 선형회귀모형 사용

단순선형회귀

반응변수 Y와 설명변수 1개의 X 사이의 선형적 관계 연구
공분산과 상관계수로 변수들 사이의 방향과 강도 등의 연관성 측정
- 상관계수는 선형(linear)관계를 측정하므로 $Cov(X, Y)=0$이 관계없음을 의미하지 않음

단순선형회귀모형

X와 Y의 관계가 아닌 parameter의 형태에 주목
선형모형
$$ Y = \beta_0 + \beta_1 X + \epsilon $$
- 모형회귀계수 (모수, parameter)
  - $ \beta_0$ : 절편(intercept)
  - $ \beta_1$ : 기울기(slope)
  - $ \epsilon $ : 확률변동(random disturbance), 오차(error)
관측개체에 따라
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i=1,2, \dots, n $$
- $y_i$는 반응변수 $Y$의 $i$번째 값
- $x_i$는 설명변수 $X$의 $i$번째 관측값
- $ \epsilon$에 대한 가정
  - $ \epsilon_i \sim \mathcal{N}(0, \sigma^2), \quad i=1,2, \dots, n $ : $ \epsilon $ 은 정규분포
  - $ E(\epsilon_i) = 0 , \quad i=1,2, \dots, n$ : $ \epsilon $ 의 각 평균은 0
  - $ Var(\epsilon_i) = \sigma^2, \quad i=1,2, \dots, n $ : $ \epsilon $ 의 각 분산은 동일
  - $ Cov(\epsilon_i ,\epsilon_j) = 0 \quad i \neq j $ : $ \epsilon $ 은 서로 독립

단순회귀모수 추정

각 점에서 회귀선까지의 수직거리(vertical distance)이 제곱합을 최소로 하는 회귀계사 값을 찾는 최소제곱추정법(Least Square Estimation; LSE) 이용
잔차
$$ d_i = y_i - b_0 -b_1 x_i, \quad i=1,2, \dots, n $$
잔차제곱합 (거리 제곱합)
$$ S(b_0, b_1) = \sum_{i=1}^{n} (d_i)^2 = \sum_{i=1}^{n} (y_i - b_0 -b_1 x_i)^2 $$
위의 값을 최소로 하는 $ \hat{\beta_0}, \hat{\beta_1} $
$$ \hat{\beta_1} = \dfrac {\sum(y_i - \bar{y})(x_i - \bar{x}) } {\sum (x_i - \bar{x})^2}, \quad \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} $$
최소제곱회귀선(least square regression line)
$$ \hat{Y} = \hat{\beta_0} + \hat{\beta_1} X $$
각 개체에 따른 적합 값(fitted residual)
$$ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1} x_i, \quad i=1,2, \dots, n $$
최소제곱잔차(least square residual)
$$ \epsilon_i = y_i - \hat{y_i}, \quad i=1,2, \dots, n $$
평균제곱오차(Mean Square Error: MSE)
$$ \hat {\sigma}^2 = \frac{ \sum e^2_i }{n-2} = \frac{ \sum (y_i - \hat{y_i})^2 }{n-2} = \frac{SSE}{n-2} = MSE $$

단순회귀모수 구간추정

$\beta_0$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{\beta_0}) $$
$$ SE(\hat{\beta_0}) = \hat{\sigma} \sqrt { \frac{1}{n} + \frac{\bar{x^2}}{\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$

$\beta_1$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_1} \pm t_{\alpha /2} (n-2) \times SE(\hat{\beta_1}) $$
$$ SE(\hat{\beta_1}) = \frac{\hat{\sigma}} {\sqrt {\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$

단순회귀모수 검정

가설
$$ H_0 : \beta_1 = 0 \quad \quad H_1 : \beta_1 \neq 0 $$
검정통계량
$$ t = \frac{\hat{\beta_1}}{SE(\hat{\beta_1}} \sim t(n-2) $$
$ |t| \geq t_{\alpha /2} (n-2) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

단순회귀모형의 적합성

$$ H_0 : \beta_1 = 0 \quad \quad H_1 : \beta_1 \neq 0 $$
$$ F=\frac{MSR}{MSE} \sim F(1, n-2)\quad \quad under H_0$$
$ F \geq F_{\alpha} (1, n-2) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

t와 F값은 동시에 증가 또는 감소하므로 단일회귀분석에서는 F가 아닌 t-검정으로 충분

결정계수 (Coefficient of Determination)

$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, \quad 0 \leq R^2 \leq 1 $$

반응변수 $Y$ 의 전체 변이 중 설명변수 $X$ 에 의해 설명되는 비율
$ R^2 $ 이 1에 가까울수록 (=SSE가 0에 가까울수록) $X$ 가 $Y$ 의 변이 중 많은 부분을 설명한다는 것을 의미
반응변수 $Y$ 와 설명변수 $X$ 사이의 상관계수의 제곱과 같음

단순회귀모형의 예측

적합된 회귀방정식을 예측에 사용

1) 설명변수의 어떤 선택된 값 $x_0$ 에 대응되는 반응변수의 값에 대한 예측 (좀 더 어려움)

예측값
$$ \hat{y_0} = \hat{\beta_0} + \hat{\beta_1} x_0 $$
예측구간
$$ \hat{y_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{y_0}) $$
$$ SE(\hat{y_0}) = \hat{\sigma} \sqrt { 1+ \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} } $$

2) 설명변수의 어떤 선택된 값 $x_0$ 에 대응되는 반응변수의 평균값 $ \mu_0 $ 에 대한 추정값

추정값
$$ \hat{\mu_0} - \hat{\beta_0} + \hat{\beta_1 x_0} $$
신뢰구간
$$ \hat{\mu_0} \pm t_{\alpha /2} (n-2) \times SE(\hat{\mu_0})$$
$$ SE(\hat{\mu_0}) = \hat{\sigma} \sqrt {\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} } $$

다중선형회귀 (Mutiple Linear Regression)

반응변수 $Y$ 와 여러 개의 설명변수 $X-1, X_2, \dots, X_n$ 사이의 선형적 관계 연구
$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p +\epsilon $$
최소제곱잔차(least square residual)

다중선형회귀모형

관측개체에 따라
$$ y_i = \beta_0 + \beta_1 x_{1i} + \dots + \beta_p x_{pi} + \epsilon_i, \quad i=1,2, \dots, n $$
- $y_i$는 반응변수 $Y$의 $i$번째 값
- $x_{ij}$는 $i$ 번째 설명변수 $X_i$의 $j$번째 관측값

다중선형회귀모수 추정

각 점에서 회귀선까지의 수직거리(vertical distance)이 제곱합을 최소로 하는 회귀계수 값을 찾는 최소제곱추정법(Least Square Estimation; LSE) 이용
잔차
$$ d_i = y_i - b_0 - b_1 x_{1i} - \dots - b_p x_{pi}, \quad i=1,2, \dots, n $$
잔차제곱합 (거리 제곱합)
$$ S(b_0, b_1, \dots, b_p) = \sum_{i=1}^{n} (d_i)^2 = \sum_{i=1}^{n} (y_i - b_0 -b_1 x_{1i} - \dots - b_p x_{pi})^2 $$
위의 값을 최소로 하는 $ \hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_p} $
$$ \hat{\beta} = (X'X)^{-1} X' Y $$

다중선형회귀모수 구간추정

$\beta_0$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\beta_0}) $$
$$ SE(\hat{\beta_0}) = \hat{\sigma} \sqrt { \frac{1}{n} + \frac{\bar{x^2}}{\sum (x_i - \bar{x})^2} }, \quad \hat{\sigma} = \sqrt{MSE} $$

$\beta_j$ 에 대한 $(1-\alpha) \times 100% $ 신뢰구간 (confidence interval):
$$ \hat{\beta_j} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\beta_j}) \quad j=1, 2, \dots , p $$

다중선형회귀모수 검정

가설
$$ H_0 : \beta_j = 0 \quad \quad H_1 : \beta_j \neq 0 $$

검정통계량
$$ t = \frac{\hat{\beta_j}}{SE(\hat{\beta_j}} \sim t(n-p-1) $$

$ |t| \geq t_{\alpha /2} (n-p-1) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

다중선형모형의 적합성

$$ H_0 : \beta_1 = \beta_2 = \dots = \beta_p = 0 \quad \quad H_1 : not H_0 $$
$$ F=\frac{MSR}{MSE} \sim F(p, n-p-1) \quad \quad under H_0$$
$ F \geq F_{\alpha} (p, n-p-1) $ 또는 $p$ 값이 유의수준 $\alpha$ 보다 작으면 $ H_0$ 기각 ($\alpha$ 는 보통 0.05 또는 0.01)

결정계수 (Coefficient of Determination)
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}, \quad 0 \leq R^2 \leq 1 $$
수정결정계수 (Adjusted $R^2$)
$$ R^2_\alpha = 1 - \frac{n-1}{n-p-1}(1- R^2) $$
- 셜명변수의 수가 다른 모형 비교시 종종 사용

다중회귀모형의 예측

적합된 다중회귀방정식을 예측에 사용

1) 설명변수의 어떤 선택된 값 $(x_{10}, x_{20}, \dots , x_{p0}) $ 에 대응되는 반응변수의 값에 대한 예측 (좀 더 어려움)

예측값
$$ \hat{y_0} = \hat{\beta_0} + \hat{\beta_1} x_{10} + \dots + \hat{\beta_p} x_{p0} $$
예측구간 ($ SE(\hat{y_0}) = \hat{y_0} $ 의 표준오차)
$$ \hat{y_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{y_0})$$

2) 설명변수의 어떤 선택된 값 $(x_{10}, x_{20}, \dots , x_{p0})$ 에 대응되는 반응변수의 평균값 $ \mu_0 $ 에 대한 추정값

추정값
$$ \hat{\mu_0} - \hat{\beta_0} + \hat{\beta_1} x_{10} + \dots + \hat{\beta_p} x_{p0} $$
예측구간 ($ SE(\hat{\mu_0}) = \hat{\mu_0} $ 의 표준오차)
$$ \hat{\mu_0} \pm t_{\alpha /2} (n-p-1) \times SE(\hat{\mu_0})$$

회귀진단

주어진 데이터에 모형을 적합함에 있어서 한 개 또는 몇 개의 관측개체들에 의해 적합이 과도하게 결정되는 것은 바람직하지 않음
표준적인 회귀의 가정들이 만족될 때 모형이 유효한 의미를 가짐
가정이 위반된다면 결과가 유효하지 않으며 심각한 오류 발생 가능
가정에 대한 위반을 검출하고 수정해야 신뢰성 있는 결과 얻을 수 있음

가정

모형의 형태에 대한 가정
- 선형성 (Linearity): 반응변수 Y와 설명변수 $X_1, X_2, \dots , X_p$ 사이의 선형 관계
- 선형회귀분석의 선형과는 다름
오차에 대한 가정
- 정규성 (Normality) : $ \epsilon_i \sim \mathcal{N}(0, \sigma^2), \quad i=1,2, \dots, n $
- 등분산성 (Homoscedasticitiy) : $ Var(\epsilon_i) = \sigma^2, \quad i=1,2, \dots, n $
- 독립성 (Independent-Error) : $ Cov(\epsilon_i ,\epsilon_j) = 0 \quad i \neq j $
설명변수에 대한 가정
- 설명변수는 확룰변수가 아니고 오차 없이 측정
- 공선성 (Collinearity) 없음 : $X_1, X_2, \dots , X_p$ 는 선형독립
관측개체에 대한 가정
- 각 개체가 동등한 역할

잔차

$$ \epsilon_i = y_i - \hat{y_i}, \quad i=1,2, \dots, n $$
$$ E(\epsilon_i ) = 0, \quad \quad Var(\epsilon_i ) = \sigma^2 (1-h_{ij}) $$
$$ h_{ij} = \frac{1}{n} + \frac{(x_i - \bar{x})(x_j - \bar{x})} {\sqrt {\sum_{k} (x_k - \bar{x})^2} } $$
$$ h_{ii} = \frac{1}{n} + \frac{(x_i - \bar{x})^2} {\sqrt {\sum_{k} (x_k - \bar{x})^2} }$$

표준화잔차(Standardized Residual)
- 내표준화잔차(Internally Standardized Residual)
  $$ r_i = \frac{e_i} {\hat{\sigma} \sqrt{1-h_{ij}} } $$
- 외표준화잔차(Externally Standardized Residual)
  $$ r_i = \frac{e_i} {\hat{\sigma_{(i)}} \sqrt{1-h_{ij}} }, \quad \quad \hat{\sigma_{(i)}} = \frac{SSE_{(i)}}{n-p-2} $$
  $$ \sum e_i = 0, \quad \sum r_i \neq 0, \quad \sum r_i^* = 0, \quad r^*_i \sim t(n-p-2) $$
잔차에 패턴이나 경향이 있으면 안됨

선형성

산점도행렬(scatterplot matrix)
- 만족하지 않으면 변수변환, 다항회귀, 비선형회귀 고려
잔차그림(residual plot)
- 잔차가 랜덤해야 선형성 만족
- 영향성을 찾을 수 없음

정규성

정규확률그림(normal probability plot; Q-Q plot)
- 대각선과 일치하면 정규성 만족
- 만족하지 않으면 변수변환 또는 비모수회귀 고려

등분산성

잔차가 랜덤해야 등분산성 만족
만족하지 않으면 변수변환, 가중최소제곱법(weighted LSE) 고려

독립성

지수그림(Index plot)
- 잔차가 0 주위에 랜덤하게 흩어져 있어야 독립성 만족
Durbin-Watson 통계량 : 잔차의 독립성을 확인하기 위한 테스트로서, 잔차끼리의 자기상관성 여부를 판단
$$ D = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^2}{\sum_{t=1}^{n} e^t_2} \approx 2(1-\hat{p}) $$
- D = 4 : 음의 자기상관
- D = 2 : 독립
- D = 0 : 양의 자기상관
- 만족하지 않으면 자기상관 제거하고 다시 모수추정 또는 시계열분석 고려
주의
- $ e_t$ 와 $e_{t-1}$ 만의 상관관계를 파악할 뿐 $ e_t$ 와 $e_{t-k}$ 의 관꼐에 대해서 알 수 없음
- 자기상관성이 있으면 독립이 아니지만, 자기상관성이 없어도 독립일 수 있음
- 아리마 모델 잔차 적용 불가 (자기상관함수, 륭-박스 테스트 사용)

다중공선성

설명변수들 간에 선형적 연관관계가 있는 상태
다중공선성 문제가 있을 떄, 연관된 설명변수의 추정오차가 커져 통계적으로 유의하지 않을 수 있음
실제 설명변수들 간에 선형적 연관관계가 전혀 없는 경우는 드물지만, 강한 선형관계가 있을 경우 결과 왜곡 가능성이 높음
가장 크게 관여되는 설명변수를 제거하거나 Ridge Regression, Principal Components Regression(PCR), Partial Least Square Regression(PLSR) 고려

1) 분산확대인자(Variance Inflation Factor)
$$ VIF_j = \frac{1}{1-R^2_j}, \quad \quad j=1, 2, \dots, p $$

$ R^2_j : X_j $ 와 나머지 설명변수들 사이의 결정계수
$ VIF_j $가 10보다 크면 다중공선성 문제 있음
Tolerance value = $ 1 / VIF_j $가 0.1보다 작으면 다중공선성 문제 있음

2) 상태지수(Condition Index)
$$ C_j = \sqrt{ \frac {\lambda_{max}} {\lambda_j} }, \quad \quad j=1, 2, \dots, p $$

$ \lambda_{max} $ : 상관행렬의 최대고유값, $ \lambda_j $ 는 $j$ 번째 고유값
싱태지수가 클수록 다중공선성 정도 심함
상태지수가 10이상이면 경계, 100 이상이면 심각
분산비율(proportion of variation)이 0.5 이상이면 다중공선성 문제 있음

영향력 (influence point)

어떤 점이 제외되었을 때 적합모형 (추정된 회귀계수, 적합값, t값 등)에 큰 영향을 준다면 그 점을 영향력이 큰 개체라 함
반응변수의 어떤 값이 데이터으 ㅣ일반적인 경향을 따르지 않을 때 그 점을 특이치(outlier)라 함
가면과 수령 문제
- 가면(masking)문제: 데이터가 특이값을 가지고 있으나 검출하지 못하는 것
- 수령(swamping)문제: 특이값이 아닌 점을 특이값으로 간주하는 것
- 잔차그림을 살펴보는 것으로 충분치 않음 (fake positive)

1) Leverage Value
$$ h_i = x_i (X'X)^{-1} x^{'}_i \quad \quad i=1, 2, \dots, n $$

$ h_i > \frac{2(p+1)}{n} $ 인 경우 $i$ 번째 개체가 영향력 크다고 함

2) Cook's Distance
$$ COOKD_i = \frac {\sum_{j=1}^{n} (\hat{y_j} -\hat{y_{j(i)}})^2 } {(p+1) \hat{\sigma^2} } = \frac {}{} \times \frac {h_{ij}}{1-h_{ij}} $$

$ COOKD_i $ 값이 큰 경우 $i$ 번째 개체가 영향력 크다고 함

3) DIFFITS
4) COVRATIO
5) DFBETAS

질적 설명변수

질적(qualitative) 또는 범주형 (categorical) 설명변수가 반응변수의 변화를 설명하는데 유용할 수 있음
가변수(dummy variable)로 변환하여 사용

변수선택

모형은 데이터를 적합할 만큼 충분히 복잡(complex)해야 하고 과적합(overfitting)하지 않게 해석할 수 있도록 상대적으로 단순(simple)해야 함
변수선택 이유
- 너무 많은 설명변수 유지는 비효율적이고 예측오차 증가시킴
- 유의한 설명변수 제외는 중요한 정보 손실과 편향된 결과 도출 가능성 있음

모형선택기준

1) Adjusted $R^2_p$ : 가장 큰 모형 선택
$$ Adj R^2_p = 1 - \frac{n-1} {n-p-1 } (1-R^2_p ) = 1 - \frac{n-1}{n-p-1} \times \frac{SSE_p}{SST} $$

2) Mallow $C_p$ : $ C_p \approx p+1$ 인 가장 작은 $p$ 찾을 수 있을 때 해당 모형 선택
$$ C_p = \frac{SSE_p} {\hat{\sigma^2}} + (2p-n) $$

3) Akaike Information Criterion (AIC) : AIC가 가장 작은 모형 선택
$$ AIC_p = n \log (SSE_p /n) +2(p+1) $$

변수선택방법

1) 모든 가능한 모형 (All Positive models)

주어진 설명변수의 모든 조합을 고려
$2^p - 1$ 가지 회귀모형

2) 전진선택법 (Forward Selection)

가장 유위한 것으로 판단되는 변수부터 하나씩 선택해 포함
더이상 유의한 변수가 없을 때 변수선택 중단

3) 후진소거법 (Backward Elimination)

가장 유의한 것으로 판단되는 변수부터 하나씩 제거
더이상 유의하지 않은 변수가 없을 때 변수 제거 중단

4) 단계적선택법 (Stepwise Method)

전진선택법과 후진소거법 혼합
가장 유의한 것으로 판단되는 변수부터 하나씩 선택하여 포함하되 이미 포함된 변수를 유의하지 않으면 제거

참고문헌(추천도서)

김기영 등 (2009). 예제를 통한회귀분석 (자유아카데미)
허명회, 서혜선 (1994). SAS 회귀분석 (자유아카데미)
Chatterjee, S. and Hadi, A.S. Regression Analysis by Example (Wiley)
Faraway, J.J. (2005). Linear Models with R (Chapman & Hall.CRC)

저작자표시 비영리 변경금지 (새창열림)

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

패널자료분석(Panel Data Analysis) (1)	2020.03.04
분산분석 이론 (0)	2020.01.25
선형회귀 및 로지스틱 회귀 (0)	2020.01.19
기초통계이론 2 (0)	2020.01.12
기초통계이론 1 (0)	2020.01.10

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Lahong's Blog

선형회귀분석

회귀분석 (Regression Analysis)

단순선형회귀

단순선형회귀모형

단순회귀모수 추정

단순회귀모수 구간추정

단순회귀모수 검정

단순회귀모형의 적합성

결정계수 (Coefficient of Determination)

단순회귀모형의 예측

다중선형회귀 (Mutiple Linear Regression)

다중선형회귀모형

다중선형회귀모수 추정

다중선형회귀모수 구간추정

다중선형회귀모수 검정

다중선형모형의 적합성

다중회귀모형의 예측

회귀진단

가정

잔차

선형성

정규성

등분산성

독립성

다중공선성

영향력 (influence point)

질적 설명변수

변수선택

모형선택기준

변수선택방법

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

티스토리툴바

선형회귀분석

회귀분석 (Regression Analysis)

단순선형회귀

단순선형회귀모형

단순회귀모수 추정

단순회귀모수 구간추정

단순회귀모수 검정

단순회귀모형의 적합성

결정계수 (Coefficient of Determination)

단순회귀모형의 예측

다중선형회귀 (Mutiple Linear Regression)

다중선형회귀모형

다중선형회귀모수 추정

다중선형회귀모수 구간추정

다중선형회귀모수 검정

다중선형모형의 적합성

다중회귀모형의 예측

회귀진단

가정

잔차

선형성

정규성

등분산성

독립성

다중공선성

영향력 (influence point)

질적 설명변수

변수선택

모형선택기준

변수선택방법

'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글

'STATISTICS/고려대학교 통계연구소 2020 동계 통계워크샵' Related Articles

티스토리툴바