본문 바로가기

STATISTICS/사회조사분석사

3-1. 통계학 개요

[통계학 분류]

  • 기술통계학 descriptive statistic
    • 수집된 자료의 특성을 파악할 수 있도록 도표나 그림을 통해 자료를 정리하고 요약하는 방법을 다루는 분야
    • 추론통계학을 위한 사전단계로 수집된 자료의 분석에 초점
    • 대푯값, 분산, 비율, 기록, 지수 등
  • 추론통계학 inferential statistic
    • 자료에 내재되어 있는 정보를 분석하여 불확실한 사실에 대한 추론을 하는 분야
    • 자료로부터 얻어지는 정보를 근거로 하여 미지의 모수의 특성에 대한 결론을 내리고 현상을 예측
    • 표본의 크기, 모집단, 표본, 모수, 통계량 등

 

[중심경향 측정치 (대푯값)]

1. 평균 Mean

  • 산술평균 : 가장 일반적으로 쓰이는 대푯값, 특이값에 영향을 많이 받음
  • 가중평균 : 각 변량의 중요도 또는 도수가 다른 경우 사용
  • 기하평균 : 지율의 대푯값으로 유용
  • 조화평균 : 시간적으로 변하는 속도 등에 사용하는 대푯값
  • 산술평균 >= 기하평균 >= 조화평균

2. 중앙값 Median

  • 자료가 많을 경우 사용하기 불편
  • 특이값의 영향 받지 않음

3. 최빈값 Mode

  • 빈도가 가장 많은 변량
  • 범주형 자료의 경우 최빈값이 대푯값으로 쓰임
  • 각 변량의 빈도가 모두 같은 경우 최빈값은 없다.
  • 최빈값은 두 개 이상 나올 수 있다.
  • 특이값의 영향을 받지 않는다.

 

[분산도 (산포도)]

  • 범위 range
    • 변량의 최댓값 - 최솟값
    • 특이값의 영향 많이 받음
  • 평균편차 mean deviation
    •  편차의 절댓값 평균
  • 사분위편차 quartile deviation
    • Q = (Q3 - Q1) / 2
    • 범위와 같이 모든 변량이 식에 반영되지 않음
  • 분산 variance , 표준편차 standard deviation
  • 변동계수 coefficient of variance
    • CV = 표준편차 / 평균
    • 측정단위에 의존하지 않음
    • 상대적 산포도에 해당
    • 서로 다른 평균과 표준편차를 가진 집단을 비교하거나 측정단위가 다른 집단을 비교하는 데 적절
    • 변동계수가 작을수록 더 평균에 밀집

 

[비대칭도]

  • 왜도 skewness,  $\alpha_3$ 
    • 자료의 분포에서 좌우 대칭 정도, 분포의 기울어진 정도와 방향, 즉 비대칭 정도를 나타내는 척도
    • $\alpha_3 = 0 $이면 좌우 대칭 -> 평균 = 중앙값 = 최빈값
    • $\alpha_3 < 0$ 이면 왼쪽 긴 꼬리 -> 평균 < 중앙값 < 최빈값
    • $\alpha_3 > 0 $이면 오른쪽 긴 꼬리 -> 평균 > 중앙값 > 최빈값
    • 피어슨 계수 = $ \frac{평균 - 최빈값} {표준편차}$ or $ \frac{3 (평균 - 중앙값)} {표준편차}$
    • 적률 계수 = $ \frac{E(X- \mu)^3}{\sigma^3}$
  • 첨도 kurtosis, $\alpha_4$
    • 자료의 분포에서 중심이 얼마나 뾰족한가를 측정하는 척도
    • 정규분포는 첨도 3
    • $\alpha_4 -3$ 으로 정의하기도 함
    • $ \alpha_4 =  \frac{E(X- \mu)^4}{\sigma^4}$
    • $\alpha_4 < 3$ 이면 정규분포보다 높은 봉우리, 뾰족
    • $\alpha_4 > 3 $이면 정규분포보다 낮은 봉우리, 뭉툭

 

'STATISTICS > 사회조사분석사' 카테고리의 다른 글

3-3. 통계적 추정 및 가설검정  (0) 2020.09.13
3-2. 확률분포  (0) 2020.09.13
2-3. 척도  (0) 2020.09.12
2-2. 측정  (0) 2020.09.11
2-1. 표본추출방법  (0) 2020.09.10