하기 작성된 내용들은 2020년 1월 6일 고려대학교 통계연구소 동계 워크숍 송성주 교수님의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.
통계학이란?
- 관심 또는 연구의 대상이 되는 집단으로부터 자료를 수집, 정리하고 분석하며 최적의 의사결정을 할 수 있도록 정화학 정보를 제공하는 방법론을 연구하는 학문
- 통계학은 데이터와 같은 경험적 사실에 근거하여 어떤 일반적인 결론을 내리기 위해 불확실성의 수량화를 통한 체계적 방법으로 귀납적 논리 전개를 통해 사용가능한 지식을 도출
기술통계학 (Descriptive Statistics)
- 방대한 자료를 그래프나 몇 개의 숫자로 요약하여, 그 자료의 전반적인 내용을 쉽고 빠르게 파악할 수 있는 기법을 다루는 통계학
- (자료를 얼마나 잘 정리해서 보여줄 수 있는가)
추론통계학 (Inferential Statistics)
- 관심의 대상이 되는 전체집단(모집단)으로부터 일부를 추출하여 관측된(표본) 내용을 근거로 모집단의 전체 특성을 추정하고 검정하는 방법을 다루는 통계학
- 확률적 서술(probabilistic statement)이어야 함
자료의 요약
자료의 수집과 정리
- 연구와 분석의 목적을 명확히 해야 한다.
- 분석의 목적에 부합하는 자료를 수집해야 한다.
- 저료는 정밀하게 검사되고 분석에 적합하도록 정리되어야 한다.
- 오류값(Error) : 변수가 가질 수 없는 값, 변수값의 불가능한 조합, 일관성 없는 코드값, 잘못된 코드값
- 특이값(Outlier) : 정상이 아닌 자료값. 특이값은 오류값일 수도 있고 그렇지 않을 수도 있다.
- 결측값(Missing) : 원인과 기록 방법을 정밀하게 조사하여 자료를 정정하고 기록 방법을 변경해야 하며, 필요시에는 자료를 보정해야 한다. (Imputation)
변수 (Variables)
- 개인 또는 개체의 특성을 나타내며 개인(개체)별로 다른 값을 가짐 (나이, 키, 셩별 등)
- 변수의 분포는 이 변수가 어떤 값을 가질 수 있으며 그러한 값을 가질 가능성이 어느 정도안지를 나타냄
- 형태에 따라 자료의 요약과 분석 방법이 달라짐
자료(변수)의 형태
1) categorical (범주형) : 명목 / 순서
2) quantitative (양적) : 연속 / 이산
- 명목 (Nominal) 변수 : 순서가 없는 범주를 가지는 변수 (ex. 성별, 지역)
- 순서 (Ordinal) 변수 : 순서가 있는 범주를 가지는 변수 (ex. 크기, 만족도)
- 연속 (Continuous) 변수 : 무수히 많은 다른 값을 가지는 변수 (측정의 한계 때문에 이산적으로 기록됨) (ex. 키, 온도)
- 이산 (Discrete) 변수 : 몇 개의 다른 값을 가지는 변수 (ex. 고장 횟수, 가족 구성원 수)
범주형 자료의 요약
- 도수분포표 (Frequency table)
- 막대그래프 (Bar graph)
- 파이 차트 (Pie chart)
- 파레토 차트 (Paretto chart) : 순위별로 정리 (해석이 용이)
양적 자료의 요약
- Graphical 요약
- Dotplot, Stemplot, Histogram, Boxplot, Line graph...
- 전체적인 분포의 패턴과 그 패턴으로부터 벗어난 극단적 관측치들(outliers)을 살펴봄
- 수치적 요약
- 대표값 (Center of distribution) : 산술평균, 중앙값, 최빈값(범주형 가능)..
- 산포도 (Spread of distribution) : 범위, 사분위범위(IQR), 표준편차..
- 왜도 (Skewness) : 비대칭(asymmetry) 정도
- right or positive skew
- left or negaitive skew
- $ {\sum_(X_i - \bar{X})^3}/ {({\sqrt (X_i - \bar{X})^2)})^3} $
- 첨도 (Kurtosis) : 뾰족한(peakedness) 정도
- < 0 : flat (left distribution)
- = 0 : normal distribution
- > 0 : steep (right distribution)
- $ {\sum_(X_i - \bar{X})^4} / {({\sqrt (X_i - \bar{X})^2)})^4} -3 $
줄기-잎 그림 (Stemplot)
- 점도표와 비슷하나 좀 더 많은 정보를 함유
- 실제 자료의 수치를 그대로 사용하면서 분포의 형태를 보여주는 그림
- 쉽고 빠르게 그릴 수 있으며 정보의 손실이 없음
- 모든 값이 양수이ㅣ면서 데이터의 양이 많지 않을 경우 좋음
- 두 개의 연관된 분포를 비교하고 싶을 떄, 같은 줄기를 공유하는 Back-to-back stemplot이 유용
히스토그램 (Histogram)
- 막대그래프와 비슷하지만 막대그래프는 범주형, 히스토그램은 연속형
- 가장 많이 사용
- 자료의 범위(range)를 몇 개의 구간(class)으로 나누고 각 구간에 들어가는 관측치의 빈도(frequency) 또는 상대빈도(relative frequency)만을 나타내는 그림
- Dataset이 큰 경우 좋음
- 히스토그램의 각 막대는 그 class의 빈도에 비례하고, count를 나타내므로 관측치 자체를 나타내지 않음
- 방법
- 자료의 범위를 구간(class)으로 나눔 (class의 개수는 5-10개 정도가 적절)
- boundary 나누기의 규칙은 정하기 나름
- 최솟값을 확인하고 구간단위를 .5 단위로 설정 등의 방법을 이용
- 각 class에 들어가는 관측치의 개수(frequency) 계산
- 각 class별 빈도 또는 상대빈도 표현
- 자료의 범위를 구간(class)으로 나눔 (class의 개수는 5-10개 정도가 적절)
Line graph (time plot)
시계열 자료인 경우 x축을 시간으로 한 time plot에서 trend와 seasonal variation 등을 찾을 수 있음
대표값 (수치적 자료의 요약)
- 산술평균 (mean) : 계산이 쉽고 수학적으로 다루기 쉬우나 모든 관측치를 사용하므로 특이값에 영향을 많이 받음
- Right skewed (우측 긴 꼬리, ex.연봉)의 경우 적합하지 않고 center가 왜곡되어 크게 나옴 (median < mean)
- Left skewed (좌측 긴 꼬리, ex.사망연령)의 경우 적합하지 않고 center가 왜곡되어 작게 나옴 (mean < median)
- 중앙값 (median) : 관측한 자료를 순서대로 배열하여 가장 중앙에 있는 값. 순위를 사용하여 중앙에 있는 값만 사용하므로 특이값에 영향을 받지 않음
- 분포가 한쪽으로 치우쳐 있는 경우나 특이값들이 있는 경우 중앙값이 더 적합하고 그렇지 않은 경우 대부분 산술평균이 적합
- 최빈값 (mode)
- 관측치 가운데 가장 여러번 나타난 값. 여러 개 존재하거나 존재하지 않을 수 있음 (모든 데이터가 동일한 경우)
- 이산변수에 주로 사용하고, 범주형 자료에도 사용가능
- free size(one-size) 설정시에 이용
산포도 (spread)
- 범위 (range)
- 최댓값 - 최솟값
- 간단하지만 특이값에 큰 영향을 받음 (최대/최솟값이 특이값일 수 있으므로)
- 사분위범위 (IQR, interquartile range)
- 특이값에 영향 받지 않음
- 표준편차
- 가장 널리 이용되며 통계적 추론에 유용
- 산술평균처럼 특이값에 영향 받음
- $s = + \sqrt(s^2) $
- $ s^2 = \dfrac {\sum (x_i - \bar{x})^2} {n-1} $
- n이 아닌 n-1인 이유 : 모집단을 추정하는 표통통계량이기 때문에, 모평균이 아닌 표본평균을 가지고 계산하기 때문에 실제보다 작은 경향이 생겨 보정함 (비편향추정량)
- 변동계수 (corfficient of variation)
- $ CV = 100 \times \dfrac{s}{\bar{x}} $
- 단위의 영향을 받지 않음
- 측정 단위가 다른 집단의 산포도 비교 가능
사분위범위 (IQR)
- 백분위수 (percentile, quantile)
- p 백분위수란 p %의 관측치는 이 값 아래에 있고 나머지는 이 값보다 위에 있게 되는 값을 말함
- 중앙값 : 50백분위수
- Q1 = 25백분위수 = 제1사분위수 (first quartile)
- Q3 = 75백분위수 = 제3사분위수 (third quartile)
- IQR = Q3 - Q1
- 다섯 숫자 요약 (Five-number summary): min Q1 median Q3 max
Boxplot
- 다섯 숫자 요약의 graphical result
- 상자는 중앙 50%의 자룔를 표시 (Q1~Q3)
- 여러개의 분포를 한 눈에 비교할 때 유용함 (집단별 비교 용이)
- 방법
- Q1과 Q3으로 끝나는 상자를 그린다 (상자의 길이 = IQR).
- 상자 안에 중앙값을 줄을 그어 표시한다.
- Q3+1.5IQR 보다 크거나 Q1-1.5IQR보다 작은 값은 outliers로서 * 또는 다른 symbol로 표시한다. "1.5 IQR criterion"
- Outlier가 아닌 값중 가장 큰 값과 가장 작읍 값까지 상자의 끝에서 줄을 긋는다.
확률변수와 분포
확률과 임의성
- 어떤 현상이 "랜덤"하다는 것은 이 현상의 개별적인 결과(outcome)를 예측할 수는 없으나 여러번 반복하여 시행할 때 그 결과가 규칙적인 분포를 따르게 되는 것을 의미함
- 랜덤한 현상 또는 실험(random phenomenon, experiment)의 어떤 결과(outcome)가 나올 확률은 매우 여러번 반복하여 시행했을 때 이 결과가 나오는 비율, 즉 상대빈도로 정의됨
- 확률변수는 랜덤한 현상 또는 실험의 결과로 결정되는 수치적인 양 (numerical quantity)을 말하는데, 이것은 매번 시행 때마다 다른 값을 가질 수 있으며 일정한 확률분포를 가진다. (이산형/연속형)
- ex.동전 던지기 : 동전 던지기의 결과는 랜덤하지만 각 시행(던지기)이 독립적이라는 가정하에서 (새로이 던진 결과는 이미 나온 결과에 의햐 영행을 받지 않는다는 뜻으로) 여러번 던졌을 떄의 결과는 예측가능하다.
이산확률변수
- 이산확률변수는 유한, 또는 셀 수 있는 무한의(finite or countable infinite) 값 만을 가질 수 있는데 그 확률분포는 모든 가능한 값에 그 값이 나올 확률을 대응시키는 확률분포표나 확률히스토그램 등으로 표현될 수 있다.
- 각 확률 $p_i$는 0과 1 사이의 양수이고 그 합인 1이 되어야함
이항분포 (Biomial distribution)
- 어떤 확률 실험이 두 개의 결과만을 가질 수 있을 때 이를 베르누이 시행이라 한다. 편의상 결과 중 하나를 성공, 다른 하나를 실패라 하고 성공확률을 $p$, 성공이 나오는 횟수를 $X$라 하면 $X$는 성공 확률이 $p$인 이항분포를 따른다고 하며, $B(n,p)$로 표기한다.
- $B(n,p)$를 따르는 이산확률변수 $Y$가 $y$의 값을 가질 확률은
$$ P(Y=y)=\binom n y \ p^y (1-p)^{n-y} \qquad y = 0,1,...,n $$
연속확률변수
- 연속확률변수 X는 어떤 구간 안의 모든 값을 다 취할 수 있는 변수이고, 이 때 확률분포는 이산확률변수와 달리 확률밀도함수로 표현된다.
- 연속형의 경우 확률은 각 구간에 할당되며 그 확률은 확률밀도함수를 그 구간에서 적분한 값, 즉 밀도함수 아래의 면적과 같다.
- 확률밀도함수는 양의 값을 가지며 전체 구간에서 적분한 값은 1이어야 한다.
- 연속확률변수가 단 하나의 값을 가질 확률은 0이다.
정규분포 (Normal distribution)
- 정규분포는 연속형 분포 가운데 가장 많이 쓰이는 확률분포이다. (고전 통계 이론의 대부분)
- 정규분포는 $\mathcal{N}(\mu, \sigma^2)$ 라 많이 표현되며, 모평균 $\mu$와 표준편차 $\sigma$의 모수로 특징지어 진다.
- $\mu$는 분포의 가운데이며 분포의 위치를 나타내고 $\sigma$는 분포의 퍼짐 정도를 나타낸다.
- $\mu$에 대칭인 종 모양의 분포로서 $\mu \pm \sigma$에서 볼록성이 바뀐다.
- $\sigma$가 큰 모집단의 분포는 넓게, 작은 모딥단의 분포는 평균 주위에 가까이 몰려있는 형태를 취한다.
- 표준정규분포(standard normal distribution)는 $\mu =0, \sigma =1$인 정규분포이다.
정규분포의 표준화
- 모든 정규분포는 같은 형태적 성질을 갖기 때문에 $\mathcal{N}(\mu, \sigma^2)$를 표준화하여 표준정규문포 $\mathcal{N}(0, 1)$를 얻을 수 있고, 표준화한 후 확률계산을 할 수 있다.
- 표준화된 자료는 z-score라 불린다.
모집단과 표본
- 모집단(population)
- 어떤 인구에서 실제 관심있는 집단
- 흔히 전체를 모두 연구하기 어려움
- 표본(sample)
- 모집단의 일부분으로서 실제로 연구자가 자료를 수집하여 연구하는 부분
- 표본추출이 잘 되어야 연구 전체가 의미 있어짐
- 모수(parameter)
- 모집단의 특성을 나타내는 숫자
- 미지의 고정된 상수
- 통계량(statistic)
- 표본의 특성을 나타내는 숫자
- 표본에 따라 다른 값을 갖는 확률변수
- 모수를 추정하는데 사용
- 표본이 바뀌면 통계량이 바뀌므로 각 통게량의 확률분포를 아는 것이 중요
표본분포 (=표집분포, Sampling distribution)
- 통계량의 표본분포란 확률변수인 통계량의 확률분포를 말한다. 즉, 모집단에서 표본의 크기가 $n$ (정해진 숫자)인 모든 표본이 뽑혔다고 가정했을 때, 각 표본에서 계산된 통계량이 가지는 값들의 분포를 말한다. 이론적인 분포이고, 실제 관측하는 분포는 아니다.
- 표본평균 $(\bar{X})$의 분포: 평균이 $\mu$, 표준편차가 $\sigma$인 모집단에서 표본크기 $n$인 표본을 많이 추출했다고 가정하다. 이 때, 어떤 표본에서의 평균은 $\mu$보다 크고, 어떤 표본에서의 평균은 $\mu$보다 작아지면서 표본분포가 생성될 것이다.
- 모집단의 평균이 $\mu$, 표준편차가 $\sigma$일 때:
- 표본평균의 평균은 모집단의 평균과 같다. $\mu_\bar{x} = \mu$
- 표본평균의 표준편차는 모집단의 표준편차보다 작으며 표본의 크기가 증가함에 따라 $ \dfrac {1} {\sqrt{n}} $의 비율로 줄어든다: $ \sigma_\bar{x} = \dfrac {\sigma} {\sqrt{n}} $
정규분포에서의 표본분포
- 모집단이 정규분포를 따르면 모든 표본 크기 n에 대해 표본평균의 표본분포는 정규분포를 따른다.
- 모집단의 분포가 $\mathcal{N}(\mu, \sigma^2)$을 따르면, 표본평균의 분포는 $\mathcal{N}(\mu, \dfrac {\sigma^2}{n})$을 따른다.
중심극한정리 (Center limit theorem)
- 평균이 $\mu$이고 표준편차가 $\sigma$인 모집단에서 임의표본을 뽑을 때, 표본의 크기 n이 그면 표본평균의 표본분포는 근사적으로 정규분포를 따르며, 그 평균은 $\mu$이고, 표준편차는 $\dfrac {\sigma}{\sqrt{n}}$이다.
- 표본의 크기가 커질수록 정규분포에 가깝게 근사한다.
표본의 크기는 얼마나 커야 하는가?
- 필요한 표본의 크기는 모집단의 형태에 따라 다름. 모집단이 정규분포와 많이 다를수록 표본의 크기는 더 많이 필요함
- 모집단의 분포가 한 쪽으로 치우쳐 있고 약한 특이치들이 존재하는 경우: 25개 정도의 표본이 있으면 표본분포의 정규성 가정 가능
- 모집단의 분포가 매우 치우쳐 있고 심한 특이치들이 존재하는 경우: 40개 정도의 표본이 있으면 표본분포의 정규성 어느정도 만족 가능
- 대부분의 경우 표본평균의 분포를 생각할 때 정규분포를 가정
통계적 추론 (Statistical Inference)
연구대상은 모집단(population)에서 표본(sample)을 추출하여 그 특성인 통계량(statistic)을 분석(analysis)하여 모집단의 모수(parameter)를 추론(inference)
통계적 추정 (Statistic Estimation)
표본의 정보를 이용하여 실제로 관찰되지 않은 부분을 포함한 모집단 전체에 대한 추측
점추정 (Point Estimation)
- 하나의 값으로 모수를 추정
- 불확실성이 있음
구간추정 (Interval Estimation)
- 모수가 속할 것이라 생각되는 적절한 구간 (신뢰구간)을 설정하여 추정
- 점추청 $\pm$ 오차의 한계
- 구간이 너무 넓으면 추정이 불완전하지만, 너무 좁으면 신뢰수준이 낮을 수 있음
- 신뢰구간 (Confidence interval)
- 중심극한정리에 의해, 표본평균의 95%가 모평균으로부터 $ 1.96^* \dfrac {\sigma}{\sqrt{n}} $ 이상 떨어져 있지 않다.
- 매우 많은 표본을 뽑아 각각에 대해 표보녕균을 계산했을 때, 그 중 95% 정도의 표본평균이 모평균에서 2(1.96) 표준편차 이상 떨어져 있지 않다.
- $ P(-1.96 < \dfrac{\bar{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}} < 1.96) = 0.95$
- 모평균의 신뢰구간
$ (\bar{x} - {\dfrac{\sigma}{\sqrt{n}}}, \bar{x} + {\dfrac{\sigma}{\sqrt{n}}}) $ - 사례비교
- 갈색 달걀 하나 무게의 평균이 65g, 표준편차가 5g인 정규분포를 따른다고 할 때, 12개의 달걀이 들어있는 하나의 carton을 크기가 12인 표본이라 하면,
표본평균 $\bar{X}$의 분포는 평균이 65g이고 표준편차가 $ \dfrac{5}{\sqrt{12}} = 1.44 $인 정규분포이고, 이 분포의 중앙95%에 들어가는 달걀은 65$\pm$2.82g의 무게를 갖는다 : 추정 아님 - 흰 달걀 12개가 들어있는 carton 전체의 무게가 770g 일 때, 이 표본의 평균 $\bar{X}$는 64.2g이다. 흰 달걀 무게의 표준편차도 5라 하면,
95%의 신뢰도로 흰 달걀 무게분포의 평균 $\mu$는 표본평균으로부터 $\pm 1.96 \dfrac{\sigma}{\sqrt{n}}$, 즉 64.2$\pm$2.82g 안에 있다 할 수 있다 : 추정
- 갈색 달걀 하나 무게의 평균이 65g, 표준편차가 5g인 정규분포를 따른다고 할 때, 12개의 달걀이 들어있는 하나의 carton을 크기가 12인 표본이라 하면,
- 신뢰구간의 길이
- 특정한 신뢰도와 신뢰구간의 길이가 필요할 때, 대부분의 경우 모집단의 표준편차는 $\sigma$로 조어되어 있으므로 표본의 크기를 조절하여 원하는 신뢰도와 신뢰구간의 길이를 얻어야 함
- $2 \times z^* \frac{\sigma}{\sqrt{n}} $
- 단위는 없음
- 비용 등의 제약조건을 고려해 적절한 결과를 얻을 수 있는 가장 작은 표본크기를 결정하는 것이 바람직
- 신뢰구간 (Confidence interval)
t분포 : 모분산을 모를 때
- 표준편차를 모를 때, 표본표준편차 $s$로 $\sigma$를 추정하여 사용
- t 통계량의 분포는 자유도가 n-1인 t분포를 따름
$$ t = \dfrac {\bar{x}-\mu} {\frac{s}{\sqrt{n}}} $$- 자유도가 작으면 분산이 커지면서 표준정규분포와 멀어짐
- 자유도가 크면 $s$가 $\sigma$의 좋은 추정치가 되어 표준정규분포와 유사해짐
- 일표본 t-신뢰구간
- 신뢰수준이 C인 신뢰구간은 표본의 100*C%에서 모평균을 포함하게 되는 신뢰구간
- 모평균 뿐만 아니라 모표준편차도 모르므로 $\bar{x}$로 $\mu$을 추정하고, $s$로 $\sigma$를 추정
- 자유도가 n-1인 t분포 사용
- 신뢰수준 C의 신뢰구간
$(\bar{x} - t^* \dfrac {s} {\sqrt{n}}, \bar{x} + t^* \dfrac {s} {\sqrt{n}}) $
표본비율의 분포
- 표본비율의 븐포도 중심극한정리에 의해 표본의 크기가 클 때 근사적으로 정규분포를 따른다. 랜덤표본에서 표본비율*표본의 크기는 이항분포를 따르고, 계산의 한계로 보통 n이 크면 정규분포를 사용해 추정과 검정을 하는 것이 일반적
- 정규근사 이용 조건
- 표본은 모집단으로부터의 단순임의표본 (Simple random sample)
- 모집단의 크기는 표본의 크기보다 적어도 10배이상 커야 함 ($n \hat{p} \geq 10$)
- 신뢰수준 C인 모비율의 대표본 신뢰구간
- $ \hat{p} \pm z^* \sqrt{ \frac{\hat{p}(1- \hat{p})} {n} } $
- C는 정규분포곡선에서 $-z^* $와 $z^* $ 사이의 면적(%)
- 정규근사 이용 조건
통계적 검정 (Hypothesis testing)
- 가설: 주어진 모집단의 성질에 관한 가정이나 이론
- 모수의 statement를 testing
가설 검정 (test of statistic hypotheses)
두 종류의 가설을 설정하고, 얻어진 자료를 근거로 어느 가설이 더 타당한지 판단
- $H_0$: 귀무가설 (null hypothesis): 효과/차이가 없다. 반증의 대상
- $H_1$: 대립가설 (alternative hypothesis): 효과/차이가 있다. 연구의 대상
- 일반적으로 귀무가설을 기각하고, 대립가설을 채택하는 것이 연구의 목적
두 종류의 오류
- 제 1종 오류 (type 1 error): 귀무가설이 참인데 귀무가설을 기각하고 대립가설을 채택하는 오류
- 제 2종 오류 (type 2 error): 귀무가설이 거짓인데 귀무가설을 채택하는 오류
유의수준 (significance level)
제 1종 오류를 허용할 최대 확률 ($\alpha$)
제 1, 2종 오류를 동시에 줄일 수 없으므로, 제 1종 오류의 확률을 유의수준으로 고정(control)시켜 놓고 제 2종 오류의 확률이 가장 작아질 수 있게 함 (유의슈준 내에서 검정력 최대)
검정력 (power)
1 - 제 2종 오류를 범할 확률 (=1-$\beta$)
p-value
- 귀무가설이 사실이라는 가정 하에 현재와 같거나 더 극단적인 자료를 얻을 확률
- 대립가설을 더 잘 뒷받침하는 자료가 얻어질 확률
- 현재의 실험결과로 귀무가설을 기각할 수 있는 최소의 유의수준
- p-value가 크면 귀무가설이 사실이라는 가정 하여 현재와 같은 자료가 얻어질 가능성이 높아므로 귀무가설이 사실일 가능성이 높다는 뜻이 되어 귀무가설을 기각하지 못함
- p-value가 작으면 귀무가설이 사실이라는 가정 하여 현재와 같은 자료가 얻어질 가능성이 낮으므로 귀무가설이 사실이 아닐 가능성이 높다는 뜻이 되어 귀무가설을 기각
- p-value의 크고 작음 판단 기준
- 유의수준 ($\alpha$)
- p-value $ > \alpha $ : 귀무가설 기각 불가
- p-value $ < \alpha $ : 귀무가설 기각
- p-value는 관측치가 귀무가설에 대한 어느 정도 간한 반증이 되는지를 수치화한 것으로, 귀무가설의 기각이 모평균이 가질 가능성이 있는 값들에 대한 정보(추정)를 주지 않음
유의성 검정 단계
1) 가설(귀무/대립가설)을 세운다.
2) 유의수준 ($\alpha$)를 정한다. (일반적으로 5%)
3) 검정통계량을 결정한다.
4) 관측된 자료에 대한 p-value를 계산한다.
5) 기각 여부를 결정한다.
주의점
- 귀무가설 기각시 조치 상황의 성격 고려
- preliminary study의 경우 의미있는 결과를 놓치지 않기 위해 조금 큰 값의 $\alpha$ 사용
- 관례적으로 업계 또는 학계의 기준 사용
- cutoff point를 생각하기 어려움
- p-value의 크기에 따라 "약간 유의, "유의", "매우 유의" 등으로 표현 가능
실제적 유의성
- 통계적 유의성은 랜덤표본에서 얻어진 결과가 우연에 의해서인지 아닌지에 대한 것만을 말함
- 통계적 유의성은 효과의 유무만 나타낼 뿐 효과의 크기에 대해서는 말하지 낳음 (통계적으로 유의한 것이 실제로 별 의미가 없을 수 있음)
- 실제 통계적 유의성이 발견되지 않은 것은 귀무가설을 기각하지 않을 뿐 귀무가설이 옳다는 것은 아님
모평균의 검정 : 모분산을 알 떄
Z-검정 : $ H_0 : \mu \mu_0$의 가설을 모평균이 $\bar{\mu}$ (unknown)이고 표준편차가 $\bar{\sigma}$ (known)인 정규분포에서 뽑힌 크기 n인 랜덤표본으로부터 검정하고자 할 때, 표본평균의 분포가 $\mathcal{N}(\mu, \dfrac{\sigma^2}{n})$ 을 따름을 이용
$$ 검정통계량 : z = \dfrac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{N}}} \sim \mathcal{N}(z;0,1) \qquad \qquad under H_0 $$
- 모평균에 대한 양측 검정
$ H_0 : \mu = $ [a specific number] $ H_1 : \mu \neq $ [a specific number] - 모평균에 대한 단측 검정
$ H_0 : \mu = $ [a specific number] $ H_1 : \mu < $ [a specific number] or
$ H_0 : \mu = $ [a specific number] $ H_1 : \mu > $ [a specific number]
검정통계량
- 귀무가설이 참일 때 기대되는 값과 관측치 사이의 차이 측정
- 관측치가 가정된 값으로부텨 몇 표주편차만큼 떨어져 있는지
- $ H_1 : \mu \neq \mu_0 $, 검정통계량의 값이 아주 크거나 작을 때 귀무가설 기각 (양측 검정)
- $ H_1 : \mu > \mu_0 $, 검정통계량의 값이 아주 클 때 귀무가설 기각 (단측 검정)
- $ H_1 : \mu < \mu_0 $, 검정통계량의 값이 아주 작을 때 귀무가설 기각 (단측 검정)
- 양측 검정시 단측 검정의 p-vlaue의 두 배
모비율의 검정
$$ H_0 : p = p_0 \quad vs \quad H_1 : p \neq P_0 $$
$$ z = \dfrac{\hat{p}-p_0} {\sqrt{\dfrac{p_0 - (1-p_0)}{n}}} $$
'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글
패널자료분석(Panel Data Analysis) (1) | 2020.03.04 |
---|---|
분산분석 이론 (0) | 2020.01.25 |
선형회귀 및 로지스틱 회귀 (0) | 2020.01.19 |
선형회귀분석 (0) | 2020.01.13 |
기초통계이론 2 (0) | 2020.01.12 |