'하기 작성된 내용들은 가천대학교 의과대학 예방의학교실 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.'
Regression
- 두 변수가 종속관계로 맺어져 있을 경우 연관성을 나타내주는 지표
- 두 변수의 관계를 수학적 공식으로 함수화하는 통계적 분석법
- $y = ax + b $
- $x$ 의 변화량이 변할 때마다 변화하는 $y$ 의 값
- $a$ : 기울기, $x$ 의 변화에 따른 $y$ 의 변화율
- 종속변수 $y$ 는 독립변수 $x$ 에 의존하는 종속관계
- 선형회귀분석 linear regression이란 두 변수의 관계가 직선적이라는 가정하에 회귀분석을 시도하는 방법을 말함. 대부분의 회귀분석법이 선형이 가정하기에 일반적으로 '선형'이라는 단어는 생략하고 사용함
Correlation vs. Regression
- Correlation에서와 같이 두 변수의 선후관계가 명백하지 않아 종속관계를 정의할 수 없는 경우 -> Correlation anal.
- 변수 중 하나가 종속변수로, 나머지를 독립변수로 하여 '독립변수가 변화함에 따라 종속변수가 어떻게 변화하는가?'하는 의존도를 평가하는 통계적 기법 -> Regression anal.
회귀분석의 기원
- 종속변수와 이를 예측하기 위해 필요한 독립변수 사이의 인과 관계에 따른 수학적 모델인 선형적 관계식을 구하고 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석방법
- 회귀: '다시 원래 자리로 돌아온다는 뜻'으로 부모와 자식의 신장(키) 관계 연구에서 F.Galton이 처음으로 제안
- 주요 가정
- 두 변수는 서로 독립적
- 두 변수가 정규분포를 따르는지 파악
- 두 변수가 거로 전반적으로 직선적 관계에 있는지 여부 파악 (SPSS 등을 이용하여 산점도 scatter plot 등의 그래프를 그려 분포 파악)
- 직선전 관계는 아니나 포물선이나 log-함수 등의 관계가 있다면 변수를 직선적인 관계로 적절히 변화 transformation 시킨 후 회귀분석 진행
단순회귀 분석 Simple Linear Regression
- $ y = a * x + b + \epsilon $
- 종속변수가 독립변수에 대해 설명되는 범위와 방향을 평가
- 종속변수와 독립변수의 관계를 계량화하여, 직접 측정한 독립변수 X 값과 미지의 Y 값을 예측 prediction하는 데 사용
다중회귀 분석 Multiple Linear Regression
- 종속변수의 변화를 설명하기 위해 두 개 이상의 독립변수가 사용되는 선형회귀 모형
- 실제자료는 대게 다중회귀모형으로 설명
- 교란변수 (인근 독립변수)의 영향을 보정한 상태에서 독립변수 각각의 독립된 영향 추정
로지스틱 회귀분석 Logistic Regression
- $ Y = Log(odds) = logit(P) = ln \frac{P}{(1-P)} = ax + b $
- Odds: 특정 사건이 발생할 확률과 발생하지 않을 확률의 비
- $ odds ratio {A vs. B} = \frac{odds{A}}{odds{B}} = \frac{P_A / (1-P_A)}{P_B / (1-P_B)} $
'CLASS > 예방의학' 카테고리의 다른 글
역학연구의 새로운 분야 (0) | 2020.12.10 |
---|---|
Survival Analysis (0) | 2020.12.09 |
사망 및 출생지표 (0) | 2020.10.13 |
질병 및 사망의 측정 (0) | 2020.10.12 |
환경의 개요 및 주요 환경노출 사건 (0) | 2020.10.09 |