[분산분석]
- 기본가정
- 정규분포성
- 등분산성
- 독립성
- 특징
- 3개 이상의 모평균 차이를 검정한다.
- F-분포를 사용 (F = 집단 간 변동 / 집단 내 변동)
- 집단 간 차이가 커지면 F값은 커진다.
- 일원분산분석 one-way ANOVA
- 분석하고자 하는 변수가 1개인 모집단에 대해 한 개의 인자의 영향만을 분석하는 가장 단순한 분산분석
- 오차항 가정
- 정규성
- 독립성
- 비편향성(불편성): 오차의 기댓값은 0이고 편의는 없다
- 등분산성
- 자유도
- 급간변동의 자유도 = (수준 수) -1
- 급내변동의 자유도 = (수준 수) x [(수준의 표본 수) -1] = (총 변동의 자유도) - (급간변동의 자유도)
- 총 변동의 자유도 = (수준 수) x (수준의 표본 수) -1 = 급간변동의 자유도 + 급내변동의 자유도
- 이원분산분석 two-way ANOVA
- 종속변수에 영향을 주는 독립변수를 두 개로 설정하는 분석기법
- 반복이 있으면 상호작용인자도 검정
- 다원분산분석 multi-way ANOVA
- 독립변수가 3개 이상인 경우의 분산분석으로 요인의 증가는 실험규모의 급격한 증가원인이 되며 실험의 랜덤화가 오려워지고 비용도 많이 든다.
- 다중비교법: 평균이 모두 동일하다는 귀무가설이 기각되었다면 최소 한 쌍의 모평균이 다르다는 의미로 모평균들이 차이가 있는지 검정 - 최소유의차법, Tirkey법, Scheffe법, Bonferroni법
[교차분석]
- 적합도 검정: 주어진 관측치가 예상한 확률분포(귀무가설)와 같은지를 검정
- 독립성 검정
- 명목자료로 이루어진 변수들 사이의 관계를 분석하고자 하는 역우
- 관찰빈도와 기대빈도의 차이를 평가하기 위한 검정
- 분할표 작성 후, 기재빈도를 구한다.
- 자료를 통합할 경우 본포의 자유도가 줄어들어 검정효과 감소
[회귀분석]
- 가정
- 선형성: 독립변수의 변화에 따라 종속변수의 변화 일정
- 정규성: 독립적으로 추출-분석된 표본은 무작위 표본으로 정규성을 띰
- 독립성: 오차항들은 서로 독립적
- 등분산성: 종속변수의 분산은 모두 동일
- 절차
- 두 변수의 선형관계를 알아보기 위해 산점도 작성
- 최소제곱법을 이용한 최적의 직선식을 구함
- 분산분석을 통해 귀무가설 기각 여부 결정
- 이상의 분석 기초로 의사결정
- 적합도 검정
- 최소제곱법에 의해 두 변수 사이의 표본회귀식을 구하더라고 선형관계의 여부, 선형관계이더라도 회귀선이 자료를 얼마나 적합하게 나타내는가를 알아보는 통계적 검정방법
- 결정계수 $R^2$ : 표본자료로부터 추정된 회귀선이 관찰값에 얼마나 적합한지를 측정할 수 있는 척도 = SSR/SST = 1- SSE/SST
- 총 변동 대비 회귀변동의 비율
- 1에 가까울수록 회귀직선의 적합도는 높아지고, 0에 가까울수록 적합도 낮아짐
- SSE = 0 -> $R^2$ = 1 : 표본의 관찰값들이 추정회귀선 위에 있는 경우로서, 회귀선이 완벽하게 자료를 설명
- $\beta_1 = 0 $ -> SSE=SST -> $R^2 =0$ : 추정회귀선이 자료를 전혀 설명하지 못하는 것으로 자료에 부적합한 회귀선
- 독립변수 개수의 증가는 결정계수를 증가시킴
- 상관계수$^2$ = 결정계수
- 검정통계량
- 단순회귀분석: $ F = \frac{MSR}{MSE} \sim F(1, n-2; \alpha) $
- 중회귀분석: $ F = \frac{MSR}{MSE} \sim F(k, n-k-1; \alpha) $
- 다중공선성
- 독립성 가정의 위배되는 것으로 하나의 독립변수의 증감이 다른 독립변수의 증감에 영향을 미치는 현상
- 설문조사자료의 회귀분석에 많이 발생
- 모수가 무의미해지고 회귀분석의 신뢰가 어려워짐
- 확인방법: 분산팽창지수, 공차한계, 조건지수, 클라인 약식검정
- 자동상관
- 오차항의 가정에 위배되는 것으로 잔차항들이 양의 방향이나 음의 방향으로 서로 상관되는 현상으로 시계열자료의 회귀분석에서 많이 나타남
- 더빈왓슨계수: 자기상관에 대한 검정을 위한 통계량
- 0에 가까우면 정적 자기상관
- 2에 가까우면 자기상관 무시 가능
- 4에 가까우면 부적 자기상관
- 독립변수 선택방법: 전진선택법, 후진선택법, 단계적방법, 최대결정계수선택법
[상관분석]
- 부분상관계수: $Y$ 에서 $X_2$ 를 통제하지 않은 $Y$ 와 $X_2$ 를 제한한 $X_1$ 간의 상관관계
$ \gamma_{Y(1, 2)} = \frac{\gamma_{Y_1} - \gamma_{Y_2} \gamma_{12}}{\sqrt{1 - \gamma_{12}^2}}$ - 편상관계수: $Y$ 에서 $X_2$ 를 통제한 $Y$ 와 $X_2$ 를 제한한 $X_1$ 간의 상관관계
$ \gamma_{Y(1, 2)} = \frac{\gamma_{Y_1} - \gamma_{Y_2} \gamma_{12}}{\sqrt{(1 - \gamma_{12}^2)(1 - \gamma_{Y_2}^2)}}$ - 피어슨 상관계수: 측정단위가 다를 경우 표준화한 상관계수로서 두 변수 간의 선형관계만 측정 가능
$r = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}, -1 \leq r \leq 1$ - 스피어만 순위상관계수
$r_s = 1 - \frac{6\sum d_j^2}{n(n^2-1)}$ - 공분산: $X. Y$에 대하여 $X$ 의 증감에 따른 $Y$ 의 증감 정도에 대한 척도
$ Cov(X. Y) = \frac{1}{n} \sum(X_i - \mu_X)(Y_i - \mu_y) = E(XY) - E(X)E(Y)$ - 심슨 패러독스 Simpson's paradox
- 백분율을 구할 때 동일하지 않은 가중치를 적용함에 따라 부분에 대한 분석결과와 전체에 대한 분석결과가 일치하지 않는 현상
'STATISTICS > 사회조사분석사' 카테고리의 다른 글
3-3. 통계적 추정 및 가설검정 (0) | 2020.09.13 |
---|---|
3-2. 확률분포 (0) | 2020.09.13 |
3-1. 통계학 개요 (0) | 2020.09.13 |
2-3. 척도 (0) | 2020.09.12 |
2-2. 측정 (0) | 2020.09.11 |