본문 바로가기

EPIDEMIOLIGY/예방의학과 공중보건학(계축문화사)

제 7장. 의학연구에서의 통계의 활용

1. 역학연구에서 통계 활용을 위한 기본 개념

1.1 통계적 방법론의 중요성

  • 모집단 전수 조사가 시간과 비용 측면에서 불가능하거나 비효율적이므로 표본을 추출하여 조사
  • 통계학은 모집단의 특성을 구명하고자 하는 것으로 특성을 모수를 통해 표현되고, 모집단의 모수에 대한 추정과 가설검정을 통해 추론
    • 모집단(population): 관심의 대상이 되는 모든 대체의 집합
    • 표본(sample): 모집단으로부터 대상자를 추출하여 관찰한 개체의 집합
    • 모수(parameter): 평균, 분산, 분율 등 모집단의 특성을 나타내는 값
    • 추정(estimation): 모집단의 특성을 표현하는 모수의 참값을 추측하는 과정
    • 가설검정(hypothesis testing): 모집단의 모수에 대한 옳고 그름을 판단하는 통계학적 과정

 

1.2 통계적 추론의 기본 개념

1) 기본 개념

(1) 조사 변수의 분류

  • 간격변수과 비율변수는 절대 0의 의미가 있는지 여부에 따라 구별 (ex. 온도가 0이라는 것은 상대적 온도의 크기릐 의미하기 때문에 간격변수) 하지만, 의학 연구에서는 그 차이를 두지 않는 것이 일반적
  • 독립변수: 다른 변수에 영향을 줄 수 있는 변수. 설명변수(explanatory variable) 혹은 예측변수(predictor variable)라고 함
  • 종속변수: 독립변수에 대한 반응으로 측정되거나 관찰되는 변수로서 독립변수에 의해 영향을 받는 변수로 예측변수에 대응해서 쓰일 경우 반응변수(response variable)라고도 함

2) 모집단과 통계량의 분포

  • 의학, 보건학 연구에서 연속형으로 측정된 많은 변수들에 대한 모집단 분포로서 정규분포 가정

$$\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i, \quad S^2 = \frac{1}{n-1}\sum_{i=1}^{n} (X_i-\bar{X})^2, \quad S = \sqrt{S^2}$$

  • 표본에서의 통계량은 모집단에서 표본을 무작위 추출하는 과정에서 발생하는 표본의 변동성으로 분포를 가지고 있음
  • 모수적 방법에서 통계량의 분포는 모집단의 분포를 가정

3) 확률분포(probability distribution)
확률변수가 어떤 구간에 속할 가능성을 대응시켜 주는 관계

(1) 정규분포 (normal distribution)

  • 연속형 확률분포 중 가장 널리 사용되는 분포
  • 가우스분포(Gaussian distribution)라고도 함
  • 평균에서 가장 많은 도수를 가지며, 평균에 대해 좌우 대칭
  • 분포의 퍼짐 정도는 분산에 의해 결정
  • 표준정규분포
    • 평균이 0, 분산이 1인 정규분포
    • 확률변수 $X$가 $\mathcal{N} (\mu, \sigma^2)$ 을 따를 때, $Z = \frac{X - \mu}{\sigma}$ 로 변환하여 표준화

(2) 기타확률분포

  • 로그정규분포: 확률분포 $X$ 의 $log(X)$ 의 분포가 정규분포를 따를 때
  • 이항분포(binomial distribution)
  • 포아송분포(Poisson distribution): 어떤 일정한 기간 동안 특정 사건이 발생하는 횟수에 대한 이산형 확률분포
  • 중심극한정리: 표본의 크기가 충분히 크다면(대체적으로 30이상) 모집단이 정규분포를 따르지 않더라고 표본평균은 정규분포에 근사

4) 가설검정과 모수추정

(1) 통계적 가설검정의 원리

  • 제1종 오류(type 1 error: $\alpha$): 귀무가설이 참인데 귀무가설 기각하는 오류
  • 제2종 오류(type 2 error: $\beta$): 대립가설이 참인데 귀무가설 기각하지 않는 오류
  • 검정의 유의수준(significance level): 제1종 오류를 범할 확률의 최대 허용한계
  • 검정력(statistical power): $1-\beta$
  • 제1종 오류를 유의수준까지 허용 후, 제2종 오류 최소화(검정력을 최대화)하는 방법 사용

(2) 유의확률(p-value)

  • 조사한 관측값으로부터 귀무가설을 기각할 수 있는 최소의 유의수준
  • p-value가 유의수준보다 작다는 것은 통계적으로 유의미할 뿐 보건학적인 연관성에 대한 유의성을 의미하는 것은 아님

(3) t-분포(Student t-distribution)를 이용한 의사결정

  • 모집단의 표준편차($\sigma$) 를 모를 때, 표본의 표준편차($S$) 이용

$$t = \frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}$$

  • 표준정규분포와 같이 평균 0에 대해 좌우 대칭
  • 표준정규분포보다 꼬리부분 두꺼운 형태
  • 자유도(degree of freedom, df) 값에 따라 형태가 정해짐
  • 자유도가 커질수록 표준정규분포에 근접

카이제곱분포($\chi^2$-분포)

  • 모집단의 분산에 대해 검정
  • 자유도에 따라 분포의 형태 달라짐

F-분포

  • 두 모집단의 분산이 같은가에 대한 검정
  • 카이제곱 분포의 비로 표현
  • 자유도 2개

(4) 신뢰구간(confidence interval)
크기가 같은 표본으로부터 반복적으로 구간을 설정하였을 때 일정한 확률 범위 내에 모수가 포함될 가능성이 있는 구간

(5) 가능도(likelihood, 우도)

  • 모집단의 통계 모형에 사용된 미지의 모수에 대한 함수로 모수의 정도를 표현하는 크기
  • 가능도 함수는 관측자료의 확률질량함수(또는 확률밀도함수)로 계산
  • 최대가능도추정(maximun likelihood estimation; MLE): 가능도를 최대로 하는 통계적 추정 밥법

 

 

2. 표본크기의 결정

  • 확인적 연구: 독립변수와 종속변수의 관계에 대한 분명한 연구가설을 가지고 진행하는 연구
  • 탐색적 연구: 뚜렷한 독립변수가 없어 여러 가능한 독립변수를 조사하고 통계적 분석을 탐색하는 연구로 연구 계획 과정에서 표본크기를 추정 불가능

 

2.1 역학지표 추정시 필요한 표본크기

신뢰구간의 폭이 넓으면 추정치의 정밀도가 낮고, 폭이 좁으면 정밀도가 높으므로 자료를 수집하기 전 추정치의 정밀도를 결정
$$n = p(1-p) \times \left( \frac{z_{1-\alpha/2}}{d} \right)^2 \quad n$$

표본크기, $p$ : 유병률 모수, $d$ : 오차한계

 

2.2 연관성 연구시 필요한 표본크기

1) 임상시험에서 필요한 표본크기

  • $A$ : 기존 치료제, $B$ : 새로 개발된 치료제, $n$ : 표본크기, $n_B = kn_A, p$ : 혈압조절률, $p_B = p_A + \triangle, \triangle$ : 유의한 효과 차이 필요한 표본크기 :

$$n_A = \left( \sqrt{\bar{p} \bar{q}(1 +\frac{1}{k}z_{1-\alpha/2})}+ \sqrt{p_A q_A(1 +\frac{p_bq_B}{k}z_{1-\beta})}\right)^2 / \triangle^2$$

$$\bar{p}=\frac{p_A+kp_B}{k+1}. q_A=1-p_A, q_B=1-p_B, \bar{q}=1-\bar{p}, \triangle=p_B-p_A$$

$$n_A' = \frac{n_A}{(1-d)} \quad\quad d: 중도탈락률 $$

  • 일정 기간 치료 후 표본 크기 (종속변수는 연속형 자료) 표본크기:

$$n_A =\frac{(\sigma^2_A+\sigma^2_B/k)}{\triangle^2} \times (z_{1-\alpha/2}+z_{1-\beta})^2$$

2) 관찰연구에서 필요한 표본크기

(1) 환자-대조군연구에서의 표본크기

$E$ : 위험요인에 노출된 군, $\bar{E}$ : 위험요인에 노출되지 않은 군, $p_{\bar{E}}$ : 대조군에서 위험요인에 노출될 확률, $p_E$ : 환자군에서 위험요인에 노출될 확률

  • $p_{\bar{E}}$에 대한 정보 얻을 수 있으나, $p_E$ 정보 가정 어려움
  • 최소 유의한 차이 $\triangle$ 을 교차비(OR)로 표현

$$p_E = \frac{p_{\bar{E}} OR}{p_{\bar{E}(OR-1)+1}}$$

(2) 코호트연구에서의 표본크기

  • 환자-대조군과 달리 위험요인의 노출 여부에 따른 질병 발생확률 추정 가능
  • $p_{\bar{E}}$에 대한 정보 얻을 수 있으나, $p_E$ 정보 가정 어려움
  • 최소 유의한 차이 $\triangle$ 을 비교위험도(RR)로 표현

$$P_E = P_{\bar{E}} RR$$

(3) 동물실험에서 필요한 표본크기

  • 사용하는 종(species) 연구계획서 명시
  • IACUC(Institutional Animal Care and Use Committee)에서는 연구 형태에 따라 필요한 표본크기 지침 언급
  • 인간 대상 연구에 비해 대상자의 개체내 변이 또는 개체간 변이가 상대적으로 작으므로 적은 표본크기로도 연구 가능

 

 

3. 연구목적에 맞는 표본추출방법

  • 확률추출법: 단순무작위추출법, 계통추출법, 층화추출법, 집락추출법, 층화집락추출법
  • 비확률추출법: 편의추출법, 할당추출법, 목적추출법, 눈덩이추출법

 

3.1 단면연구에서의 표본추출방법

1) 국민건강영양조사

  • 전국을 대표하는 표본으로 구성된 단면연구 자료
  • 주민등록인구, 인구주택총조사 등 이용 약 30만개 조사구를 표본 추출틀로 하고 시고, 공읍면, 주택유형 등을 층화하여 일정 수의 가구를 계통추출법에 따라 추출하여 조사하는 복합층화 이단계 집락추출법 사용
  • 1단계: 확률비례추출법에 따라 연간 192개 표본지역(지역구) 추출
  • 2단계: 표본조사구 당 20가구 계통추출법 적용 추출
  • 복합표본설계를 고려하여 가중치가 반영해야 추정치 편향되지 않음

2) 지역사회건강조사
주민등록주소자료로 표본 추출틀을 하고 동읍면 주택유형에 따라 층화하여 1차로 통반리 추출, 2차로 900개 표본가구 계통추출

 

3.2 분석역학연구에서의 표본추출방법

1) 환자-대조군연구

  • 병원 기반 환자-대조군연구에서 환자 추출시 연구 수행이 가능한 한 두 개의 의료기관을 선정한 뒤 환자 등록
  • 기존 확보된 환자 대상인 경우 후향적으로 의무기록을 통해 일정 기간 종안 새로 진단 받은 환자 리스트 확보한 뒤 전수조사, 무작위추출법 또는 계통추출법으로 추출
  • 연구하려는 위험요인과 관련된 다른 임상적 양상 보이는 대상자 대조군 제외
  • 검진 목적 방문 건강한 대조군 대상자 리스트 확보 후 무작위추출법이나 계통추출법으로 추출
  • 일대일 짝대응(paired matching): 환자 한 명당 대조군 한 명 무작위 추출
  • 도수대응추출(frequency matching): 특성의 범주에 따라 할당된 명 수만큼 대조군 무작위 추출

2) 코호트연구
대표성있는 표본추출보다 추적관찰 용이한 일부 지역 대상으로 편의추출, 전수 조사 지역사회 기반이거나 특정 직군 대상 코호트연구 수행

 

3.3 실험역학연구에서의 표본추출방법

연구자 중재 들어가는 실험역학연구의 경우 코호트연구와 표본추출방법 비슷

 

3.4 요약

  • 연구설계와 목적에 따라 모집단의 대표성을 확보할 수 있는 적절한 표본추출설계 필요
  • 분석역학 연구에서는 비교성 우선적 확보

 

 

4. 변수 특성에 따른 적절한 통계분석법의 선택

연구문제의 설정과 통계분석방법 선정을 위해 고려할 점

  • 연구문제의 설정
    • 연구문제 개념화
    • 연구문제에서 설명변수, 결과변수 구분
    • 연구문제 구체화
      1) 군 간의 차이 있는가
      2) 변수 간 연관성 있는가
      3) 한 변수가 다른 변수를 예측할 수 있는가
  • 통계분석방법 선정을 위해 고려할 점
    • 자료의 형태: 설명변수와 결과변수 각각이 연속형 혹은 범주형인가에 따라 비교검정 수행 방식 결정
    • 정량적 자료의 분포:
      • 연속형 자료에서 정규분포를 따를 경우: 모수적 방법
      • 정규성을 갖지 않는 자료: 순서형 자료, 비모수적 방법
    • 독립적 자료 혹은 짝지어진 자료(의존적 자료, 반복측정자료)

군 간 차이 검정을 위한 통계분석
두 변수간의 단순 연관성 평가를 위한 통계분석방법의 선택
설명변수와 결과변수 간 인과적 연관성 평가를 위한 통계분석방법의 선택(교란변수의 효과 보정 가능)

 

 

5. 연구방법에 따른 통계분석

5.1 환자-대조군연구

  • 로지스틱 회귀분석:
    • 결과변수가 비연속, 이분변수인 경우 위험 요인별 교차비 산출 목표
    • 조건부 로직스틱 회귀분석(conditional LR): 환자군 대조군 짝짓기 (ex.각각 100명의 경우 100쌍)
    • 비조건부 로직스틱 회귀분석(unconditional LR): 짝짓기하지 않은 경우 (ex.각각 100명의 경우 10,000쌍)
    • 순차적 로직스틱 회귀분석(ordinal LR): 순차적으로 위험도가 증가될 수 있는 집단
    • 명목적 로직스틱 회귀분석(nominal LR): 순차적 위험도 증가를 가정할 수 없는 독립적인 집단

 

5.2 단면연구

  • 표적인구집단 대상 무작위추출 통해 대표성있는 연구대상 표본 선정한 경우, 표본추출률 감안하여 가중치를 부여함으로써 표본의 결과를 표적인구집단의 결과로 해석
  • 분율, 유병비교위험도 및 유병교차비 계산시 가중치 부여값 산출
  • 직접표준화법 또는 간접표준화법으로 표준화유병률 산출

 

5.3 코호트연구

  • 생명표법(lifetable method), 카플란마이어법(Kaplan-Meier method): 추적관찰 시간의 흐름에 따른 질병의 발생 상태 관찰
  • 콕스회귀분석(Cox regression analysis or Cox proportional hazard model analysis): 여러 혼란 요인을 동시에 보정한 결과로 비교위험도 산출
  • 포아송회귀분석(Poisson regression analysis): 질병 발생이 드문 경우

 

5.4 혼합설계

1)코호트내 환자-대조군연구

  • 조건부 로직스틱 회귀분석 방법으로 교차비 산출
  • 층화분석이나 다른 교란요인과의 상호작용 분석 시행시 짝이 깨지는 경우 비조건부 로직스틱 회귀분석 방법과 Mantel-Haenszel 방법으로 교차비 산출

2) 환자-코호트연구

  • 대다수의 환자 서브코호트 밖에 존재
  • 서브코호트에서 추출률을 고려하여 가중치를 부여한 통계분석 시행
  • 생존분석을 이용하되 가중치를 부여하여 생명표법 또는 카플란 마이어법으로 분석 시행
  • 여러 위험요인으로부터 질병 발생 위험도에 대해 가중치를 부여한 콕스회귀분석방법으로 결과 산출

3) 환자-교차설계연구

  • 환자-대조군연구와 동일
  • 혼란변수 통제 필요시 조건부 로직스틱 회귀분석
  • 특정기간 동안 전체를 비교기간으로 할 경우 일종의 코호트연구처럼 분석

4) 패널연구와 경향연구

  • 패널연구
    • 동일 대상에 대한 반복측정을 이용하여 대상자 집단 간 특성 변화를 목적으로 한 연구이므로 코호트연구 특성
    • 결과변수가 연속변수: 반복측정분산분석(repeated measures ANOVA), 선형혼합모형(mixed model)
    • 결과변수가 ql연속변수: GEE(generalized estimating equations) 모형
  • 경향연구
    • 모집단의 율 변화 관찰이 목적이므로 단면연구 특성
    • 분율과 95% 신뢰구간으로 분율 기술
    • 우리나라의 지역사회건강조사자료, 국민건강영양조사자료

 

5.5 기타 연구설계

  • 사례군연구: 기술학적 통계분석방법으로 대표값과 추정값 제시
  • 생태학적연구: 상관분석, 직접표준화유르 표준화발생비, 표준화사망비 및 95% 신뢰구간
  • 임상시험: 주요 설명변수 단변수 분석
  • 단일군임상시험: 반복측정분석, 맥니머(McNemar)분석, GEE 모형

 

 

6. 역학자료 통계분석

6.1 다변량 분석법의 역학적 활용

  • 교란변수 통제
    • 연구설계 또는 수행 단계
      • 연구대상 선정 시 교란변수를 모두 가지고 있거나 모두 가지고 있지 않은 특정집단만으로 제한
      • 연구대상자를 임의로 배정하여 집단 간 교란변수 분포를 확률적으로 같게 하는 방법
      • 교란변수에 대해 짝짓기 하여 교란요인을 가진 대상을 각 군에 동일하게 배정
    • 연구자료 분석 단계
      • 분석 대상을 교란변수를 모두 가지고 있거나 모두 가지고 있지 않은 특정집단만으로 제한
      • 교란변수에 대해 층화(stratification)하여 각 층 내에서 교란변수 분포를 동질하게 한 후 각 층에서 산출된 관련성 지료 비교
      • 교란변수에 대해 표준화
      • 원인변수가 실제로 미치는 관련성 정도를 하나의 모형으로 설명하는 통계적 방법
        • 교란변수의 개수 제한이 없음
        • 변수 고유의 연속성 유지
        • 교란변수 영향을 모델 내로 흡수하여 비교적 쉽게 관련성 지표 산출
        • 교란변수와 질병과이 관련성 지표 산출 가능
        • 사전에 층화분석으로 효과변경인자 여부 확인 후 모델에 포함

 

6.2 시계열 자료분석

  • 시간의 변동에 따른 자료 분석법
  • 각각의 관찰값들이 독립적으로 관찰되는 것이 아니라 그 전의 값들과 연관
  • 계절성 고려를 위해 Fourier 변환, 다항회귀(polynomial regresssion), nearest neighborhood
  • 모형 적합 식별: AC(autocorrelation), PAC(partial autocorrelation)

1) 자기회귀모형(autoregressive model) : 시계열자료가 과거 값들로써 설명

  • $p$차 자기회귀모형(AR(p)) :

$$Y_t=\alpha_1Y_{t-1}+\alpha_2Y_{t-2} + \dots + \alpha_pY_{t-p} + \epsilon_t$$

2) 이동평균모형(moving average model) : 시계열자료가 연속적인 오차항들의 영향을 받음

  • $q$차 이동평균모형(MA(q)) :

$$Y_t=\epsilon_t - \beta_1 \epsilon_{t-1} - \dots - \beta_q \epsilon_{t-q}$$

3) 자기회귀이동평균모형(autoregressive moving average model) : AR과 MA가 혼합

  • 자기회귀이동평균모형 ARMA(p,q) :

$$Y_t=\alpha_1Y_{t-1}+\alpha_2Y_{t-2} + \dots + \alpha_pY_{t-p} + \epsilon_t - \beta_1 \epsilon_{t-1} - \dots - \beta_q \epsilon_{t-q}$$

  • ARMA(1,1)

$$Y_t=\alpha_1Y_{t-1}+ \epsilon_t - \beta_1 \epsilon_{t-1}$$

4) 자기상관계수(autocorrelation coefficient) : 시계열자료에서 시차(lag)를 일정하게 줄 경우의 상관계수

$$\gamma_{Y_t, Y_{t-1}} = \frac{Y_t, Y_{t-1} 의 공분산}{(Y_t 표준편차) \times (Y_{t-1}표준편차)}$$

$$= \frac{ \sum_{t=2}^k (Y_t- \bar{Y_t)}(Y_{t-1} - \bar{Y_{t-1})}} { \sqrt{\sum_{t=1}^k (Y_t- \bar{Y_t)^2} \sum_{t=2}^k (Y_{t-1} - \bar{Y_{t-1}})^2}}$$

5) 부분자기상관계수(partial autocorrelation coefficient, PAC)

  • 시차가 주어져 있을 떄, 주어진 시차에 대한 시계열간의 상관계수를 얻음에 있어, 다른 시차들의 시계열자료 값들이 미치는 영향 제거 후 주어진 시차에 대한 시계열간의 상관계수
  • 내용적으로 합당한 가정을 하는 것과 모형의 적합성 등을 종합적으로 고려하여 상관관계 행렬 선택