본문 바로가기

EPIDEMIOLIGY/예방의학과 공중보건학(계축문화사)

제 3장. 타당도와 신뢰도

1. 연구의 타당도

1.1 연구집단

1) 단계별 연구집단의 개념

  • 연구가능모집단(source population): 그 규모를 파악할 수 있는 인구집단으로서, 연구자가 접근 가능하고 연구결과를 일반화하고자 하는 인구집단
  • 표집집단(sampled population): 연구모집단을 대표할 수 있는 표본으로서 적절한 표본추출(표집)과정을 거쳐 선정된 집단
  • 적격집단(eligible population): 포함기준(inclusion criteria)과 배제기준(exclusion criteria)에 따라 표집집단 중 연구 목적에 부합되는 적절한 대상
  • 연구참여자(study participants): 적격집단 중 연구 참여에 동의하고 연구에 필요한 여러 제반 조사와 과정에 참여한 사람
  • 표적집단(target population): 최종적으로 연구결과를 적용하고자 하는 궁극적 집단으로 연구모집단의 상위 개념

2) 연구설계와 목표에 따른 인구집단
ex. 65세 이상의 한국인의 치매 유병률 산출 조사 예시

  • 표적집단: 65세 한국인
  • 모집단: 광명시 거주하는 65세 이상 노인(n=16,190)
  • 표집집단: 모집단에서 무작위추출된 65세 이상 노인(n=1,599)
  • 적격집단: 표집집단 중 조사 당시 생존하고, 주소가 정확하고, 해당 거주지에 계속 거주하였던 사람(n=1,331)
  • 연구집단: 적격집단 중 유병률 조사에 참여한 사람(n=946)

 

1.2 내적타당도와 외적타당도의 정의

  • 타당도(validity): 실제 모수를 얼마나 정확하게 관찰하는지를 의미하는 개념
  • 내적타당도(internal validity)
    • 연구집단에서 얻어진 추론을 연구가능모집단에까지 적용하는 것이 타당한가에 대한 개념
    • 해당 연구의 모집단에서의 실제 모수를 연구집단, 즉 표본에서 얼마나 정확하게 관찰하는지를 의미
    • 표본의 측면에서 볼 때 얻어진 연구결과가 얼마나 연구의 모집단에 적용 가능한 것인가하는 정확성을 의미
  • 외적타당도(external validity)
    • 해당 연구가능모집단에 대한 추론을 표적집단에 일반화하는 것이 가능한가에 대한 개념
    • 표적집단에서의 모수를 연구대상(표본)에서 얼마나 정확하게 관찰할 수 있는가에 대한 정확성을 의미
    • 표적집단 측명네서 표본의 대표성(representativeness)을 의미
    • 표본의 측면에서 얻어진 연구결과를 표적집단에 일반화(generalizability) 할 수 있는지를 의미

 

1.3 내적타당도

  • 표집집단 -> 적격집단 -> 연구집단의 순서로 연구대상 선정 과정이 중요 요인
  • 연구설계에 많은 시간과 노력 필요
  • 연구대상의 선정 -> 연구의 수행(특히 자료 수집) -> 얻어진 자료 분석
  • 연구 과정 중 발생 문제는 바이어스 초래

 

1.4 외적타당도

  • 참여대상집단에서 산출된 연구결과의 표적집단에의 적용가능성 이외에 실제 연구에 포함된 측정변수를 통해 보다 추상적 개념으로 일반화 포함
  • 연구모집단이나 표적집단까지 일반화할 수 있는 대표성이 높은 표본을 선정하는 것이 일반화 가능성을 평가하는 데 가장 중요

 

1.5 내적타당도 대 외적타당도

  • 역학연구의 타당성 평가 시, 내적타당성 평가 후, 외적타당성 평가
  • 기술역학 연구: 표적집단 또는 연구가능모집단의 대푯값 산출 목적으로 내적타당성과 외적타당성 중요
  • 분석역학 연구: 집단 간 비교 목적으로 내적타당성이 더 중요



2. 측정방법의 타당도와 신뢰도

  • 측정(measurement): 질병, 위험요인, 교란변수 등 변수의 값을 파악하는 과정
  • 적절한 측정방법의 사용이 역학연구의 신뢰도를 높임

 

2.1 정의

  • 타당도: 검사법이 진단하고자 하는 질병의 유무를 얼마나 정확하게 판정하는가에 대한 능력. 정확도(accuracy)와 같은 의미
  • 신뢰도: 진단의 시기나 진단하는 사람 등 측정 조건에 따라 검사결과가 얼마나 일관되게 나타나는지에 대한 능력. 재현성(reproducibility) 또는 반복성(repeatability)과 같은 의미
  • 신뢰도는 타당도의 전제 조건
  • 재현 가능성이 있는 진단법을 개발하고, 적용 과정에서 검사자에 따른 변이(variability)를 없애는 것이 중요

 

2.2 타당도

  질병 있음 질병 없음
검사결과 양성 a b
검사결과 음성 c d

1) 민감도(sensitivity) = 확률(진단결과 양성인 질병 있는 환자 | 질병 있는 환자) = a / (a+c)
2) 특이도(specificity) = 확률(진단결과 음성인 질병 없는 사람 | 질병 없는 사람) = d / (b+d)
3) 위음성률과 위양성률

  • 위음성률(false negative rate) = 확률(진단결과 음성인 질병 있는 사람 | 질병 있는 사람) = c / (a+c)
  • 위양성률(false positive rate) = 확률(진단결과 양성인 질병 없는 사람 | 질병 없는 사람) = b / (b+d)

4) 양성예측도와 음성예측도

  • 검사도구의 효용성(usefulness) 평가
  • 양성예측도(positive predictive value) = a / (a+b)
    = 확률(진단결과 양성인 질병 있는 환자 | 진단 결과 양성인 사람)
    = $\frac{민감도 \times 유병률}{(민감도 \times 유병률) + (1 - 특이도) \times (1 - 유병률)}$
  • 음성예측도(negative predictive value) = d / (c+d)
    = 확률(진단결과 음성인 질병 없는 사람 | 진단 결과 음성인 사람)
    = $\frac{특이도 \times (1-유병률)}{(1-민감도) \times 유병률 + 특이도 \times (1 - 유병률)}$

5) 검사결과가 연속형 변수로 측정될 때 타당도 평가

  • 엄격한 기준 사용시 민감도 감소, 특이도 증가
  • ROC (receiver operator characteristic)
    • 수평축에 1-특이고, 수직축에 민감도의 수치로 각 기준에 따른 점들을 이어 그린 곡선
    • 수직축에서 위쪽으로, 수평축에서 왼쪽으로, 즉 곡선이 왼쪽 상부에 있을수록 타당도가 높은 검사로 볼 수 있음
    • 각 한계치에 따라 민감도와 특이도를 평가할 수 있어 연속형 변수로 측정하는 진단법 평가시 유용, 타당성 가장 높은 한계치 산출시 유용하게 사용
    • 곡선 아래면적(area under the curve, AUC) 클수록 유용한 검사

 

2.3 신뢰도 (reliability)

  • 재현율 또는 반복성(repeatability)이라 하며, 검사 반복시 비슷한 검사결과가 얻어지는지를 의미하는 개념 또는 그 정량화 지표
  • 검사결과의 정확성의 전제조건은 검사의 신뢰도

 

1) 신뢰도에 영향을 미치는 변이

(1) 피검자의 생물학적 변이
재현성에 미치는 영향 최소화 위해 검사시기나 조건 표준화
(2) 검사자 내 변이(intra-obserner variability)와 검사자 간 변이(inter-obserner variability)

  • 검사자의 주관적 평가 방법과 숙련도가 검사자 내 변이 유발
  • 검사-재검사의 신뢰도(test-retest realiability) 측정 방법을 통해 검사 숙련도나 표준화 정도 파악
  • 2명 이상의 특정자가 검사 평가 시 발생

 

2) 신뢰도의 측정방법

  첫번째 검사자 양성 첫번째 검사자 음성
두번째 검사자 양성 a b
두번째 검사자 음성 c d

(1) 일치율(agreement percent): 두 검사자의 검사결과가 서로 일치하는 비율로 검사자의 실력에 따라 지표로 부적절
(2) 카파통계량(kappa statistics, kappa value)

  • 두 검사자 간 검사결과의 우연의 일치 고려
  • 카파통계량 = $ \frac{(관찰된 일치율 - 우연한 일치율)}{1-우연한 일치율} $
  • 우연한 일치율 = $ \frac{(a+c)\times(a+b)}{n} + \frac{(b+d)\times(c+d)}{n}/n $

(3) 상관계수(correlation coefficient)

  • 연속변수 검사법 신뢰도 평가
  • 군내 상관계수(intra-class correlation coefficient), 블랜드-알토만 도표 (Bland-Altman plot; Tukey mean-difference plot) 등



3. 바이어스

3.1 무작위 오류와 체계적 오류

바이어스 : 체계적 오류(systematic error)로 내적타당도 저해하는 것으로 무작위 오류(random error)와 다름

 

3.2 오류, 신뢰도, 타당도 간 관련성

무작위오류는 연구과정이나 방법과 무관하게 발생, 체계적 오류가 아니기 때문에 바이어스가 아니며 내적타당도와 무관

 

3.3 바이어스와 내적타당도

  • 연구집단의 결과가 연구가능모집단의 모수와 같은 결과가 산출되었다면 내적타당도 높음
  • 체계적 오류로 인해 내적타당도가 저해된 경우를 바이어스가 발생했다고 함

 

3.4 바이어스의 분류

1) 선택 바이어스

  • 연구대상의 선정 과정에서 발생
  • 연구 참여 집단과 이론적으로 연구대상자가 되어야 하는데 연구대상자로 선정되지 않았던 사람이 달라서 발생
  • 연구 참여에 영향을 미치거나 연구대상자가 된 후 참여에 변화를 유발하는 요인 포함
  • 환자-대조군연구의 연구대상 선정시 주로 발생
  • 후향적 코호트연구에서 요인 노출에 대한 기록 부실 시 발생: 특정 사건에 대한 요인 노출 정보가 없는 사람에 비해 요인 노출 정보가 있는 사람들의 기록이 더 잘 보존되었을 가능성이 있어 이들이 선택적으로 연구대상에 포함
  • 전향적 코호트연구에서는 연구대상 선정 이후 질병 발생 여부까지의 추적관찰에서 기반 조사 참여자의 추적관찰 비참여로 적은 수가 추적관찰되는 경우 발생

(1) 무응답 바이어스: 민감한 질문의 개인 연구에서 흔히 발생, 모든 연구설계에서 관찰 가능
(2) 버크슨 바이어스: 연구대상을 특정병원에 한정해서 뽑을 때 연구대상자의 특성에 따라 입원율이 달라 발생, 내적타당도 문제 발생, 다기관 연구 수행 필요
(3) 선택적 생존 바이어스(나이만 오류, Neyman's fallacy): 치명적 질병 요인 연구하는 단면연구와 후향적 코호트연구에서 흔히 발생, 연구 시작 시점에 사망 가능성 높으므로 질병발생 후 생존에 영향을 주는 인자로 해석해야 함
(4) 자발적 참여자 바이어스(자기선택 바이어스, self-selection bias): 더욱 건강하거나 특별한 문제가 있어 자발적으로 참여하므로 더 많이 연구집단에 포함 (ex.건강근로자효과: 건강하지 않은 근로자가 건강검진을 피하는 경향)
(5) 추적관찰 탈락 바이어스: 전향적 코호트연구 등 추적관찰을 시행하는 연구에서 초기 집단에 비해 탈락(follow-up loss)으로 인해 질병 발생 여부 확인 대상자가 감소하는 경우 최종 연구 집단에 선택적 선정 발생
(6) 기간차이 바이어스: 종양의 생물학적 특성에 따라 선별검사에서 선택되어 결과에 비뚤림을 주는 바이어스로 선택 바이어스의 일종

 

2) 정보 바이어스

  • 측정오류의 정도가 비교하고자 하는 집단 간에 서로 다를 때 초래되는 바이어스
  • 연구의 수행과정, 특히 각종 정보의 수집과정에서 발생
  • 집단 간 위험요인 노출이나 질병 확인에서 오분류(misclassification) 발생으로 차별적/비차별적 오류 발생

(1) 면담자 바이어스(interviewer bias): 설문조사자의 편견이나 유도질문 때문에 수집된 정보의 질이나 응답 자체릐 차이 유발
(2) 측정 바이어스(measurement bias): 잘못되거나 타당성이 떨어지는 조사/검사방법 때문에 요인 노출을 잘못 측정
(3) 기억 소실 바이어스와 회상 바이어스

  • 환자-대조군 연구에서 많이 관여
  • 기억 소실 바이어스(memort decay bias): 피조사자의 기억력에 의존하여 정보의 정확성이 떨어짐, 비차별적 오분류 유발 가능
  • 회상 바이어스(recall bias): 특정 질병 관련 요인으로 더 잘 기억, 차별적 오류 유발 가능

(4) 호손 효과(Hawthorne effect): 특별한 중재나 실험 없이 연구 참여, 위험요인에 대한 반복 측정으로 행동 변화 유발로 요인-결과 간 관련성 영향
(5) 확인 바이어스(ascertainment bias): 코호트 연구에서 추적관찰 시행시 노출 대상자를 더 철저히 조사하거나 노출 대상자가 과다하게 질병을 보고하게 됨으로써 질병 발생이 높은 것처럼 보이는 바이어스
(6) 시간 바이어스(time bias): 시간적 흐름에 따라 요인 측정 또는 질병 진단 시 개인적 요인이나 진단의 기준 자체가 변화됨으로써 요인-결과 간 관련성에 생기는 바이어스
(7) 조기발견 바이어스(lead time bias): 일반적 진단 시점보다 진단 시기를 앞당겨서 조기 진단을 받게 됨으로써 생존 기간이 더 길어진 것으로 평가
(8) 출판 바이어스(publication bias): 유의하지 않아 체계적 고찰 또는 메타분석 시행 시 포함되지 않거나 유의하지만 기존의 알려진 지식과 반대로 관찰되어 출판되지 않을 가능성
(9) 검출 바이어스(detection bias) - 선택 바이어스와 정보 바이어스의 혼합: 위험요인 여부에 따라 검사에 의해 질병 빈도의 차이가 관찰되는 오분류 발생

 

3) 오뷴류 방향에 따른 결과와의 연관성 평가

(1) 차별적 오분류

  • 환자군과 대조군의 오분류가 다름 경우 심각한 정보 바이어스 초래
  • 코호트연구에서는 회상으로 과거 노출 정보 조사하지 않지만 위험요인에 노출과 비노출 대상자에서 질병 발생의 확인 정도나 질병 정보의 조사과정이 서로 달라 발생하는 확인 바이어스의 경우 노출여부에 따른 차별적 오분류 발생 가능
  • 코호트여구에서 추적관찰 탈락 바이어스와 정보 바이어스의 명확한 구분 필요

(2) 비차별적 오분류

  • 환자군-대조군 비교, 폭로군-비폭로군 비교를 통한 역학적 연구에서 폭로 정보나 질병 정보의 오분류가 비교집단 간에 비슷할 정도로 발생하는 경우
  • 차별적 오분류보다 심각성이 작음
  • 일반적으로 결론은 비슷하괴 그 값이 귀무값(null value) 방향으로 왜곡
  • 역학연구의 연관성 결과를 평가하는 지표를 비교위험도(교차비)라 할 때 귀무값은 두 집단 간 비교위험도 = 1.0을 의미

 

4) 교란 바이어스

  • 제3의 변수인 교란변수에 의해 초래되는 연구결과의 왜고ㄱ
  • 결과변수(질병)와 관련되어 있고 설명변수(위험요인)와 연관성이 있으면서 설명변와 결과변수 사이의 중간매개변수는 아닌 변수
  • 연구 설계시 고려하여 정보 수집해야 함
  • 일종의 위험요인이르모 정보 수집되어야 함

 

3.5 바이어스의 제어

  • 선택 바이어스
    • 질병과 요인 노출의 정의 명확
    • 최종 연구집단이 전체 연구가능모집단, 최소한 표집집단에 대해 높은 참여율 유지
    • 가능한 많은 대상자 포함
    • 연구설계부터 전체 연구가능모집단에 대한 참여율과 전체 연구가능모집단과 최종 연구집단이 유사한지 확인
  • 정보 바이어스
    • 면담자의 훈련과 구조화된 설문지 사용, 면담자에 대한 눈가림
    • 타당한 검사방법과 조사방법 사용
    • 요인 노출 상태에 관해 연구대상자 눈가림하여 추적관찰
  • 교란 바이어스
    • 연구계획 시부터 교란변수 정보 수집
      • 연구계획 단계: 연구대상 제한(restriction), 교란변수 의심 변수 짝짓기(matching), 무작위배정(randomization)
      • 연구분석 단계: 층화분석, 다변량 분석, 특정 집단 한정 분석, 짝짓기