3-4. 통계분석

[통계분석의 이해]

1. 통계

통계: 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
통계자료의 획득 방법: 총 조사(census)와 표본조사 (sampling)
표본 추출 방법: 단순랜덤추출, 계통추출법, 집락추출법, 층화추출법
자료의 측정 방법
- 명목척도: 측정 대상이 어느 집단에 속하는지 분류
- 순서척도: 측정 대상의 서열관계를 관측하는 척도
- 구간척도(등간척도): 측정 대상이 갖고 있는 속성의 양을 추구하는 것으로 구간이라 구간 사이의 간격이 의미가 있는 자료
- 비율척도: 간격(차이)에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도

2. 통계분석

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정
기술통계 descriptive statistic
- 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
- 평균, 표준편차, 중위수, 최빈값, 그래프
통계적 추론 statistical inference:
- 수집된 자료를 이용해 대상집단(모집단)에 대한 의사결정을 하는 것으로 sample을 통해 모집단을 추정하는 것
- 모수추정, 가설검증, 예측

3. 확률 및 확률분포

확률변수 random variable: 특정 값이 나타날 가능성이 확률적으로 주어지는 변수
이산형 확률분포
- 베르누이분포: 결과가 2개만 나오는 경우
- 이항분포: 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 기하분포: 성공확율이 p인 베르누이 시행헤서 첫번째 성공이 있기까지 x번 실패할 확률
- 다항분포: 이항분포의 확장으로 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포
- 포아송분포: 시간과 공간 내에서 바생하는 사건의 발생횟수에 대한 확률분포
연속형 확률분포
- 균일분포: 모든 확률변수 X가 균일한 확률을 가지는 확률분포
- 정규분포: 평균이 $\mu$이고, 표준편차가 $\sigma$인 x의 확률분포
- 지수분포: 어떤 사건이 발생할 때까지 경과 시간에 대한 확률분포
- t분포
  - 표준정규분포와 같이 평균 0을 중심으로 좌우가 동일한 분포
  - 표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포가 됨
  - 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 사용
- F분포: 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포
- $\chi^2$분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포

4. 추정 및 가설검정

추정: 표본으로부터 미지의 모수를 추측하는 것
점추정 point estimation
- '모수가 특정한 값일 것'이라고 추정하는 것
- 평균, 표준편차, 중앙값 등을 추정
- 점추정 조건: 불편성 unbiasedness, 효율성 efficiency, 일치성 consistency, 충족성 sufficient
구간추정 interval estimation: 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는것
- 모분산을 알거나 대표본의 경우 표준정규분포 활용
- 모분산을 모르거나 소표본의 경우 t분포 활용
가설검정: 모집단에 대한 가설을 설정한 뒤, 그 가설 채택 여부를 결정하는 방법
- 귀무가설 null hypothesis, $H_0$ vs 귀무가설 alternative hypothsism $H_1$
- 1종 오류 Type 1 Error ($\alpha$) : 귀무가설이 옳은데도 기각하게 되는 오류
- 2종 오류 Type 2 Error ($\beta$): 귀무가설이 옳지 않은데도 채택하게 되는 오류
  - 1종 오류의 크기를 고정시키고, 2종 오류가 최소가 되도록 기각역 설정

5. 비모수 검정

비모수 검정: 모집단의 분포에 대한 아무 제약을 가하지 않고 검정 실시
가설설정 방법: '분포의 형태가 동일하다/동일하지 않다'라는 식으로 가설 설정
검정방법: 순위나 두 관측값 차이의 부호를 이용해 검정 - 부호검정 sign test, 윌콕슨 순위합검정 rank sum test, 윌콕슨 부호순위합검정 Wilcoxon signed rank test, 만-위트니 U 검정, 런검정, run test, 스피어만 순위상관계수

[기초 통계 분석]

1. 기술통계: 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것

1) 통계량에 의한 자료 정리

중심 위치의 측도: 평균, 중앙값, 최빈값
산포의 측도: 분산, 표준편차, 범위, 사분위수 범위, 변동계수, 표준오차
분포의 형태: 왜도, 첨도

2) 그래프를 통한 자료 정리

범주형 자료: 막대그랲, 파이차트, 모자이크 프랏
연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림

2. 인과관계의 이해

1) 용어

종속변수(반응변수, y), 독립변수(설명변수, x), 산점도(scatter plot)
산점도에서 확인할 수 있는 것
- 두 변수 사이의 선형관계가 성립하는가?
- 두 변수 사이의 함수관계가 성립하는가?
- 이상값의 존재 여부와 몇 개의 집단으로 구분되는지 확인

2) 공분산 covariance

두 변수간의 상관 정도를 상관계수를 통해 확인
$Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]$

3. 상관분석 correlation analysis

1) 정의와 특성

상관분석: 두 변수 간의 관계를 상관계수를 이용해 알아보는 분석 방법
상관계수가 1에 가까울수록 강한 양의 상관관계, 상관계수가 -1에 가까울수록 강한 음의 상관관계를 가짐
상관계수가 0인 경우 데이터 간의 상관 없음

2) 유형

구분	Pearson	Spearman
개념	등간척도 이상으로 측정된 두 변수의 상관관계 측정	순서, 서열 척도인 두 변수들 간의 상관관계 측정
특징	연속형 변수, 정규성 가정	순서형 변수, 비모수적 방법
상관계수	피어슨 $\gamma$ (적률상관계수)	순위상관계수 $\rho$
R코드	cor(x, y, method=c("pearson", "kendall", "spearman"))

[회귀분석]

1) 회귀분석의 정의

하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
$y_i = \beta_0 + \beta_i x_i + \epsilon_i , i = 1, 2, \dots , n, \epsilon_i \sim N(0, \sigma^2)$, $y$: 종속변수, $x$: 독립변수
독립변수가 1개: 단순선형회귀분석, 독립변수 2개 이상: 다중선형회귀분석
최소제곱법: 측정값을 기초로 제곱합을 만들고 그것의 최소인 값을 구하여 처리하는 방법, 잔차제곱이 가장 작은 선을 선택

2) 회귀분석의 검정

회귀식(모형)에 대한 검증: F-검정
회귀계수들에 대한 검즈이 t-검정
모형의 설명력은 결정계수($R^2 = \frac{회귀제곱합}{잔차제곱합} = \frac{SSR}{SST}, 0 \leq R^2 \leq 1$)로 알 수 있음
단순회귀분석의 결정계수는 상관계수값의 제곱과 같음

3) 선형회귀분석

가정
- 선형성: 입력변수와 출력변수의 관계가 선형
- 독립성: 잔차와 독립변인은 관련 없음
- 등분산성: 독립변인의 모든 값에 대한 오차들의 분산이 일정
- 비상관성: 관측치들의 잔차들끼리 상관이 없어야 함
- 정상성(정규성): 잔차항이 정규분포를 이뤄야 함
다중선형회귀분석의 다중공선성 multicollinearity: 다중회귀순석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정 곤란
다중공선성 검사방법
- 분산팽창요인 VIF: 10보다 크면 심각한 문제
- 상태지수: 10이상이면 문제가 있다고 보고, 30보다 크면 심각, 선형관계가 강한 변수는 제거

4) 회귀분석의 종류

단순회귀: $ Y = \beta_0 + \beta_1 X_1 + \epsilon $
다중/로지스틱회귀: $ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k \epsilon $
곡선회귀: $ Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon $
비선형회귀: $ Y = \alpha e ^{- \beta X} + \epsilon $

5) 변수선택법 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택

전진선택법: 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 -> 이해 쉬움, 많은 변수에서 활용 가능. 변수 값의 작은 변동에 결과가 달라져 안정성 부족
후진소거법: 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거 -> 전체 변수들의 정보를 이용 가능. 변수가 많은 경우 활용 어려움. 안정성 부족
단계선택법: 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단

[시계열 분석]

1) 개요

시계열 자요 time series : 시간의 흐름에 따라 관찰된 값들
시계열 데이터의 분석 목적: 미래의 값을 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)

2) 정상성 (3가지 모두 만족)

모든 시점에서 평균 일정
분산 일정 - 일정하지 않을 경우 변환을 통해 정상화
공분산도 특정 시점에서 t, s에 의존하지 않고 일정

3) 시계열 모형

자기회귀모형(AR, Autoregressive model): p 시점 전의 자료가 현재 자료에 영향을 주는 모형
- $Z_t = \Phi_1 Z_{t-1} + \Phi_2 Z_{t-2} + \dots + \Phi_p Z_{t-p} + \alpha_t $
- ACF는 빠르게 감소, PACF는 절단점 존재 -> AR(절단점-1)로 계산
이동평균모형(MA, Moving Average model): 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진 모형
- $Z_t = \alpha_t - \theta_1 \alpha_{t-1} - \theta_2 \alpha_{t-2} - \dots - \theta_p \alpha_{t-p} $
- ACF는 절단점 존재, PACF는 빠르게 감소
자기회귀누적이동평균모형(ARIMA(p,d,q))
- $Z_t = \alpha_1 - \theta_1 \alpha_{t-1} - \theta_2 \alpha_{t-2} $
- d(차분) = 0 이면 정상성 만족, p=0 이면 d번 차분한 MA(q) 모델, q=0이면 d번 차분한 AR(p) 모델

4) 분해 시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

추세요인: 형태가 오르거나 또는 내리는 추세. 선형, 이차식, 지수 형태
계절요인: 요일, 월, 사분기 별로 변화하야 고정된 주기에 따라 자료 변화
순환요인: 명백한 경제적, 자여적 이유없이 알려지지 않은 주기로 자료 변화
불규칙요인: 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

[다차원 척도법]

1) 정의 및 목적

군집분석과 같이 개체들을 대상으로 변수들을 측정한 수, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간 상에서 점으로 표현하는 분석방법
목적: 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현
데이터 축소의 목적

2) 방법

개체들의 거리 계산은 유클리드 거리행렬 활용
- $ d(x, y) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \dots + (x_p - y_p)^2 } $
STRESS: 개체들을공간상에 표한하기 위한 방법으로 STRESS나 S-STRESS를 부적합도 기준으로 사용
- 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행

3) 종류

계량적 MDS (Metric MDS)
- 데이터가 구간척도나 비율척도인 경우 활용 (전통적인 다차원척도법)
- N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들 간의 유클리드 거리행렬을 계산하고 개체들 간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현
비계량적 MDS (Nonmetric MDS)
- 데이터가 순서척도인 경우 활용
- 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용

[주성분분석]

1) 정의 및 목적

상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로, 선형결합으로 변수를 축약, 축소하는 기법
목적: 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리. 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도 개선, 회귀분석에서 다중공선성 최소화

2) 주성분분석 vs 요인분석

요인분석: 등간척도(혹은 비율척도)로 두 개 이상의 변수들에 잠재되어 있는 공통 인자를 찾아내는 기법
공통점: 모두 데이터를 축소하는데 활용, 몇 개의 새로운 변수들로 축소

차이점	생성된 변수의 수와 이름	생성된 변수들 간의 관계	목표변수와의 관계
요인분석	몇 개로 지정할 수 없으나, 이름 붙일 수 있음	생성된 변수들이 기본적으로 대등한 관계	목표변수를 고려하지 않고 주어진 변수들 간 비슷한 성격들을 묶음
주성분분석	제1주성분, 제2주성분...을 생성 (보통 2개), 이름은 제1주성분과 같이 정해짐	제1주성분, 제2주성분 순으로 중요함	목표변수를 고려하여 주성분 변수 생성

3) 주성분의 선택법

누적기여울 cumulative proportion이 85% 이상이면 주성분의 수로 결정할 수 있음
screen plot에서 고유값(eigen vector)이 수평을 유지하기 전 단계로 주성분의 수를 선택

저작자표시 비영리 변경금지

'STATISTICS > ADsP' 카테고리의 다른 글

3-5. 정형 데이터 마이닝 (1)	2020.08.28
3-3. 데이터 마트 (0)	2020.08.25
3-2. R프로그래밍 기초 (0)	2020.08.23
3-1. 데이터 분석 기법의 이해 (0)	2020.08.22
2-2. 분석 마스터 플랜 (0)	2020.08.22

Lahong's Blog

3-4. 통계분석

[통계분석의 이해]

[기초 통계 분석]

[회귀분석]

[시계열 분석]

[다차원 척도법]

[주성분분석]

'STATISTICS > ADsP' 카테고리의 다른 글

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

3-4. 통계분석

[통계분석의 이해]

[기초 통계 분석]

[회귀분석]

[시계열 분석]

[다차원 척도법]

[주성분분석]

'STATISTICS > ADsP' 카테고리의 다른 글

'STATISTICS/ADsP' Related Articles

티스토리툴바