[통계학 분류]
- 기술통계학 descriptive statistic
- 수집된 자료의 특성을 파악할 수 있도록 도표나 그림을 통해 자료를 정리하고 요약하는 방법을 다루는 분야
- 추론통계학을 위한 사전단계로 수집된 자료의 분석에 초점
- 대푯값, 분산, 비율, 기록, 지수 등
- 추론통계학 inferential statistic
- 자료에 내재되어 있는 정보를 분석하여 불확실한 사실에 대한 추론을 하는 분야
- 자료로부터 얻어지는 정보를 근거로 하여 미지의 모수의 특성에 대한 결론을 내리고 현상을 예측
- 표본의 크기, 모집단, 표본, 모수, 통계량 등
[중심경향 측정치 (대푯값)]
1. 평균 Mean
- 산술평균 : 가장 일반적으로 쓰이는 대푯값, 특이값에 영향을 많이 받음
- 가중평균 : 각 변량의 중요도 또는 도수가 다른 경우 사용
- 기하평균 : 지율의 대푯값으로 유용
- 조화평균 : 시간적으로 변하는 속도 등에 사용하는 대푯값
- 산술평균 >= 기하평균 >= 조화평균
2. 중앙값 Median
- 자료가 많을 경우 사용하기 불편
- 특이값의 영향 받지 않음
3. 최빈값 Mode
- 빈도가 가장 많은 변량
- 범주형 자료의 경우 최빈값이 대푯값으로 쓰임
- 각 변량의 빈도가 모두 같은 경우 최빈값은 없다.
- 최빈값은 두 개 이상 나올 수 있다.
- 특이값의 영향을 받지 않는다.
[분산도 (산포도)]
- 범위 range
- 변량의 최댓값 - 최솟값
- 특이값의 영향 많이 받음
- 평균편차 mean deviation
- 편차의 절댓값 평균
- 사분위편차 quartile deviation
- Q = (Q3 - Q1) / 2
- 범위와 같이 모든 변량이 식에 반영되지 않음
- 분산 variance , 표준편차 standard deviation
- 변동계수 coefficient of variance
- CV = 표준편차 / 평균
- 측정단위에 의존하지 않음
- 상대적 산포도에 해당
- 서로 다른 평균과 표준편차를 가진 집단을 비교하거나 측정단위가 다른 집단을 비교하는 데 적절
- 변동계수가 작을수록 더 평균에 밀집
[비대칭도]
- 왜도 skewness, $\alpha_3$
- 자료의 분포에서 좌우 대칭 정도, 분포의 기울어진 정도와 방향, 즉 비대칭 정도를 나타내는 척도
- $\alpha_3 = 0 $이면 좌우 대칭 -> 평균 = 중앙값 = 최빈값
- $\alpha_3 < 0$ 이면 왼쪽 긴 꼬리 -> 평균 < 중앙값 < 최빈값
- $\alpha_3 > 0 $이면 오른쪽 긴 꼬리 -> 평균 > 중앙값 > 최빈값
- 피어슨 계수 = $ \frac{평균 - 최빈값} {표준편차}$ or $ \frac{3 (평균 - 중앙값)} {표준편차}$
- 적률 계수 = $ \frac{E(X- \mu)^3}{\sigma^3}$
- 첨도 kurtosis, $\alpha_4$
- 자료의 분포에서 중심이 얼마나 뾰족한가를 측정하는 척도
- 정규분포는 첨도 3
- $\alpha_4 -3$ 으로 정의하기도 함
- $ \alpha_4 = \frac{E(X- \mu)^4}{\sigma^4}$
- $\alpha_4 < 3$ 이면 정규분포보다 높은 봉우리, 뾰족
- $\alpha_4 > 3 $이면 정규분포보다 낮은 봉우리, 뭉툭
'STATISTICS > 사회조사분석사' 카테고리의 다른 글
3-3. 통계적 추정 및 가설검정 (0) | 2020.09.13 |
---|---|
3-2. 확률분포 (0) | 2020.09.13 |
2-3. 척도 (0) | 2020.09.12 |
2-2. 측정 (0) | 2020.09.11 |
2-1. 표본추출방법 (0) | 2020.09.10 |