본문 바로가기

STATISTICS/사회조사분석사

3-4. 통계분석

[분산분석]

  • 기본가정
    • 정규분포성
    • 등분산성
    • 독립성
  • 특징
    • 3개 이상의 모평균 차이를 검정한다.
    • F-분포를 사용 (F = 집단 간 변동 / 집단 내 변동)
    • 집단 간 차이가 커지면 F값은 커진다.
  • 일원분산분석 one-way ANOVA
    • 분석하고자 하는 변수가 1개인 모집단에 대해 한 개의 인자의 영향만을 분석하는 가장 단순한 분산분석
    • 오차항 가정
      • 정규성
      • 독립성
      • 비편향성(불편성): 오차의 기댓값은 0이고 편의는 없다
      • 등분산성
    • 자유도
      • 급간변동의 자유도 = (수준 수) -1
      • 급내변동의 자유도 = (수준 수) x [(수준의 표본 수) -1] = (총 변동의 자유도) - (급간변동의 자유도)
      • 총 변동의 자유도 = (수준 수) x (수준의 표본 수) -1 = 급간변동의 자유도 + 급내변동의 자유도
  • 이원분산분석 two-way ANOVA
    • 종속변수에 영향을 주는 독립변수를 두 개로 설정하는 분석기법
    • 반복이 있으면 상호작용인자도 검정
  • 다원분산분석 multi-way ANOVA
    • 독립변수가 3개 이상인 경우의 분산분석으로 요인의 증가는 실험규모의 급격한 증가원인이 되며 실험의 랜덤화가 오려워지고 비용도 많이 든다.
  • 다중비교법: 평균이 모두 동일하다는 귀무가설이 기각되었다면 최소 한 쌍의 모평균이 다르다는 의미로 모평균들이 차이가 있는지 검정 - 최소유의차법, Tirkey법, Scheffe법, Bonferroni법

 

[교차분석]

  • 적합도 검정:  주어진 관측치가 예상한 확률분포(귀무가설)와 같은지를 검정
  • 독립성 검정
    • 명목자료로 이루어진 변수들 사이의 관계를 분석하고자 하는 역우
    • 관찰빈도와 기대빈도의 차이를 평가하기 위한 검정
    • 분할표 작성 후, 기재빈도를 구한다.
    • 자료를 통합할 경우 본포의 자유도가 줄어들어 검정효과 감소

 

[회귀분석]

  • 가정
    • 선형성: 독립변수의 변화에 따라 종속변수의 변화 일정
    • 정규성: 독립적으로 추출-분석된 표본은 무작위 표본으로 정규성을 띰
    • 독립성: 오차항들은 서로 독립적
    • 등분산성: 종속변수의 분산은 모두 동일
  • 절차
    • 두 변수의 선형관계를 알아보기 위해 산점도 작성
    • 최소제곱법을 이용한 최적의 직선식을 구함
    • 분산분석을 통해 귀무가설 기각 여부 결정
    • 이상의 분석 기초로 의사결정
  • 적합도 검정 
    • 최소제곱법에 의해 두 변수 사이의 표본회귀식을 구하더라고 선형관계의 여부, 선형관계이더라도 회귀선이 자료를 얼마나 적합하게 나타내는가를 알아보는 통계적 검정방법
    • 결정계수 $R^2$ : 표본자료로부터 추정된 회귀선이 관찰값에 얼마나 적합한지를 측정할 수 있는 척도 = SSR/SST = 1- SSE/SST
      • 총 변동 대비 회귀변동의 비율 
      • 1에 가까울수록 회귀직선의 적합도는 높아지고, 0에 가까울수록 적합도 낮아짐
      • SSE = 0 ->  $R^2$ = 1 : 표본의 관찰값들이 추정회귀선 위에 있는 경우로서, 회귀선이 완벽하게 자료를 설명
      • $\beta_1 = 0 $ -> SSE=SST -> $R^2 =0$ : 추정회귀선이 자료를 전혀 설명하지 못하는 것으로 자료에 부적합한 회귀선
      • 독립변수 개수의 증가는 결정계수를 증가시킴
      • 상관계수$^2$ = 결정계수
  •  검정통계량
    • 단순회귀분석: $ F = \frac{MSR}{MSE} \sim F(1, n-2; \alpha) $
    • 중회귀분석: $ F = \frac{MSR}{MSE} \sim F(k, n-k-1; \alpha) $
  • 다중공선성
    • 독립성 가정의 위배되는 것으로 하나의 독립변수의 증감이 다른 독립변수의 증감에 영향을 미치는 현상
    • 설문조사자료의 회귀분석에 많이 발생
    • 모수가 무의미해지고 회귀분석의 신뢰가 어려워짐
    • 확인방법: 분산팽창지수, 공차한계, 조건지수, 클라인 약식검정
  • 자동상관
    • 오차항의 가정에 위배되는 것으로 잔차항들이 양의 방향이나 음의 방향으로 서로 상관되는 현상으로 시계열자료의 회귀분석에서 많이 나타남
    • 더빈왓슨계수: 자기상관에 대한 검정을 위한 통계량
      • 0에 가까우면 정적 자기상관
      • 2에 가까우면 자기상관 무시 가능
      • 4에 가까우면 부적 자기상관
  • 독립변수 선택방법: 전진선택법, 후진선택법, 단계적방법, 최대결정계수선택법

 

[상관분석]

  • 부분상관계수: $Y$ 에서 $X_2$ 를 통제하지 않은  $Y$ 와 $X_2$ 를 제한한  $X_1$  간의 상관관계
    $ \gamma_{Y(1, 2)} = \frac{\gamma_{Y_1} - \gamma_{Y_2} \gamma_{12}}{\sqrt{1 - \gamma_{12}^2}}$
  • 편상관계수: $Y$ 에서 $X_2$ 를 통제한 $Y$ 와 $X_2$ 를 제한한  $X_1$  간의 상관관계
    $ \gamma_{Y(1, 2)} = \frac{\gamma_{Y_1} - \gamma_{Y_2} \gamma_{12}}{\sqrt{(1 - \gamma_{12}^2)(1 - \gamma_{Y_2}^2)}}$
  • 피어슨 상관계수: 측정단위가 다를 경우 표준화한 상관계수로서 두 변수 간의 선형관계만 측정 가능
    $r = \frac{Cov(X, Y)}{\sigma_X \sigma_Y},   -1 \leq r \leq 1$
  • 스피어만 순위상관계수
    $r_s = 1 - \frac{6\sum d_j^2}{n(n^2-1)}$
  • 공분산: $X.  Y$에 대하여 $X$ 의 증감에 따른 $Y$ 의 증감 정도에 대한 척도
    $ Cov(X. Y) = \frac{1}{n} \sum(X_i - \mu_X)(Y_i - \mu_y) = E(XY) - E(X)E(Y)$ 
  • 심슨 패러독스 Simpson's paradox
    •  백분율을 구할 때 동일하지 않은 가중치를 적용함에 따라 부분에 대한 분석결과와 전체에 대한 분석결과가 일치하지 않는 현상

'STATISTICS > 사회조사분석사' 카테고리의 다른 글

3-3. 통계적 추정 및 가설검정  (0) 2020.09.13
3-2. 확률분포  (0) 2020.09.13
3-1. 통계학 개요  (0) 2020.09.13
2-3. 척도  (0) 2020.09.12
2-2. 측정  (0) 2020.09.11