본문 바로가기

STATISTICS/ADsP

3-4. 통계분석

[통계분석의 이해]

1. 통계

  • 통계: 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
  • 통계자료의 획득 방법: 총 조사(census)와 표본조사 (sampling)
  • 표본 추출 방법: 단순랜덤추출, 계통추출법, 집락추출법, 층화추출법
  • 자료의 측정 방법
    • 명목척도: 측정 대상이 어느 집단에 속하는지 분류
    • 순서척도: 측정 대상의 서열관계를 관측하는 척도
    • 구간척도(등간척도): 측정 대상이 갖고 있는 속성의 양을 추구하는 것으로 구간이라 구간 사이의 간격이 의미가 있는 자료
    • 비율척도: 간격(차이)에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도

2. 통계분석

  • 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정
  • 기술통계 descriptive statistic
    • 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
    • 평균, 표준편차, 중위수, 최빈값, 그래프
  • 통계적 추론 statistical inference: 
    • 수집된 자료를 이용해 대상집단(모집단)에 대한 의사결정을 하는 것으로 sample을 통해 모집단을 추정하는 것
    • 모수추정, 가설검증, 예측

3. 확률 및 확률분포

  • 확률변수 random variable: 특정 값이 나타날 가능성이 확률적으로 주어지는 변수
  • 이산형 확률분포
    • 베르누이분포: 결과가 2개만 나오는 경우
    • 이항분포: 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
    • 기하분포: 성공확율이 p인 베르누이 시행헤서  첫번째 성공이 있기까지 x번 실패할 확률
    • 다항분포: 이항분포의 확장으로 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포
    • 포아송분포: 시간과 공간 내에서 바생하는 사건의 발생횟수에 대한 확률분포
  • 연속형 확률분포
    • 균일분포: 모든 확률변수 X가 균일한 확률을 가지는 확률분포
    • 정규분포: 평균이 $\mu$이고, 표준편차가 $\sigma$인 x의 확률분포
    • 지수분포: 어떤 사건이 발생할 때까지 경과 시간에 대한 확률분포
    • t분포
      • 표준정규분포와 같이 평균 0을 중심으로 좌우가 동일한 분포
      • 표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포가 됨
      • 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 사용
    • F분포: 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포
    • $\chi^2$분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포

4. 추정 및 가설검정

  • 추정: 표본으로부터 미지의 모수를 추측하는 것
  • 점추정 point estimation
    • '모수가 특정한 값일 것'이라고 추정하는 것
    • 평균, 표준편차, 중앙값 등을 추정
    • 점추정 조건: 불편성 unbiasedness, 효율성 efficiency, 일치성 consistency, 충족성 sufficient
  • 구간추정 interval estimation: 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는것
    • 모분산을 알거나 대표본의 경우 표준정규분포 활용
    • 모분산을 모르거나 소표본의 경우 t분포 활용
  • 가설검정: 모집단에 대한 가설을 설정한 뒤, 그 가설 채택 여부를 결정하는 방법
    • 귀무가설 null hypothesis, $H_0$ vs 귀무가설 alternative hypothsism $H_1$
    • 1종 오류 Type 1 Error ($\alpha$) : 귀무가설이 옳은데도 기각하게 되는 오류
    • 2종 오류 Type 2 Error ($\beta$): 귀무가설이 옳지 않은데도 채택하게 되는 오류
      • 1종 오류의 크기를 고정시키고, 2종 오류가 최소가 되도록 기각역 설정

5. 비모수 검정

  • 비모수 검정: 모집단의 분포에 대한 아무 제약을 가하지 않고 검정 실시
  • 가설설정 방법: '분포의 형태가 동일하다/동일하지 않다'라는 식으로 가설 설정
  • 검정방법: 순위나 두 관측값 차이의 부호를 이용해 검정 - 부호검정 sign test, 윌콕슨 순위합검정 rank sum test, 윌콕슨 부호순위합검정 Wilcoxon signed rank test, 만-위트니 U 검정, 런검정, run test, 스피어만 순위상관계수

 

[기초 통계 분석]

1. 기술통계: 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것

1) 통계량에 의한 자료 정리

  • 중심 위치의 측도: 평균, 중앙값, 최빈값
  • 산포의 측도: 분산, 표준편차, 범위, 사분위수 범위, 변동계수, 표준오차
  • 분포의 형태: 왜도, 첨도

2) 그래프를 통한 자료 정리

  • 범주형 자료: 막대그랲, 파이차트, 모자이크 프랏
  • 연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림

2. 인과관계의 이해

1) 용어

  • 종속변수(반응변수, y), 독립변수(설명변수, x), 산점도(scatter plot)
  • 산점도에서 확인할 수 있는 것
    • 두 변수 사이의 선형관계가 성립하는가?
    • 두 변수 사이의 함수관계가 성립하는가?
    • 이상값의 존재 여부와 몇 개의 집단으로 구분되는지 확인

2) 공분산 covariance

  • 두 변수간의 상관 정도를 상관계수를 통해 확인
  • $Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]$

3. 상관분석 correlation analysis

1) 정의와 특성

  • 상관분석: 두 변수 간의 관계를 상관계수를 이용해 알아보는 분석 방법
  • 상관계수가 1에 가까울수록 강한 양의 상관관계, 상관계수가 -1에 가까울수록 강한 음의 상관관계를 가짐 
  • 상관계수가 0인 경우 데이터 간의 상관 없음

2) 유형

구분 Pearson Spearman
개념 등간척도 이상으로 측정된 두 변수의 상관관계 측정 순서, 서열 척도인 두 변수들 간의 상관관계 측정
특징 연속형 변수, 정규성 가정 순서형 변수, 비모수적 방법
상관계수 피어슨 $\gamma$ (적률상관계수) 순위상관계수 $\rho$
R코드 cor(x, y, method=c("pearson", "kendall", "spearman"))

 

[회귀분석]

1) 회귀분석의 정의

  • 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
  • $y_i = \beta_0 + \beta_i x_i + \epsilon_i , i = 1, 2, \dots , n, \epsilon_i \sim N(0, \sigma^2)$,   $y$: 종속변수, $x$: 독립변수
  • 독립변수가 1개: 단순선형회귀분석, 독립변수 2개 이상: 다중선형회귀분석
  • 최소제곱법: 측정값을 기초로 제곱합을 만들고 그것의 최소인 값을 구하여 처리하는 방법, 잔차제곱이 가장 작은 선을 선택

2) 회귀분석의 검정

  • 회귀식(모형)에 대한 검증: F-검정
  • 회귀계수들에 대한 검즈이 t-검정
  • 모형의 설명력은 결정계수($R^2 = \frac{회귀제곱합}{잔차제곱합} = \frac{SSR}{SST},   0 \leq R^2 \leq 1$)로 알 수 있음
  • 단순회귀분석의 결정계수는 상관계수값의 제곱과 같음

3) 선형회귀분석

  • 가정
    • 선형성: 입력변수와 출력변수의 관계가 선형
    • 독립성: 잔차와 독립변인은 관련 없음
    • 등분산성: 독립변인의 모든 값에 대한 오차들의 분산이 일정
    • 비상관성: 관측치들의 잔차들끼리 상관이 없어야 함
    • 정상성(정규성): 잔차항이 정규분포를 이뤄야 함
  • 다중선형회귀분석의 다중공선성 multicollinearity: 다중회귀순석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정 곤란
  • 다중공선성 검사방법
    • 분산팽창요인 VIF: 10보다 크면 심각한 문제
    • 상태지수: 10이상이면 문제가 있다고 보고, 30보다 크면 심각, 선형관계가 강한 변수는 제거

4) 회귀분석의 종류

  • 단순회귀: $ Y = \beta_0 +  \beta_1 X_1 + \epsilon $
  • 다중/로지스틱회귀: $ Y = \beta_0 +  \beta_1 X_1 + \beta_2 X_2 +  \dots + \beta_k X_k \epsilon $
  • 곡선회귀: $ Y = \beta_0 +  \beta_1 X + \beta_2 X^2 +  \epsilon $
  • 비선형회귀: $ Y = \alpha e ^{- \beta X} +  \epsilon $

 

5) 변수선택법 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택

  • 전진선택법: 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 -> 이해 쉬움, 많은 변수에서 활용 가능. 변수 값의 작은 변동에 결과가 달라져 안정성 부족
  • 후진소거법: 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거 -> 전체 변수들의 정보를 이용 가능. 변수가 많은 경우 활용 어려움. 안정성 부족
  • 단계선택법: 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단

 

[시계열 분석]

1) 개요

  • 시계열 자요 time series : 시간의 흐름에 따라 관찰된 값들
  • 시계열 데이터의 분석 목적: 미래의 값을 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)

2) 정상성 (3가지 모두 만족)

  • 모든 시점에서 평균 일정
  • 분산 일정 - 일정하지 않을 경우 변환을 통해 정상화
  • 공분산도 특정 시점에서 t, s에 의존하지 않고 일정

3) 시계열 모형

  • 자기회귀모형(AR, Autoregressive model): p 시점 전의 자료가 현재 자료에 영향을 주는 모형
    • $Z_t = \Phi_1 Z_{t-1} + \Phi_2 Z_{t-2} + \dots + \Phi_p Z_{t-p} + \alpha_t $
    • ACF는 빠르게 감소, PACF는 절단점 존재 -> AR(절단점-1)로 계산
  • 이동평균모형(MA, Moving Average model): 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이루어진 모형
    • $Z_t =  \alpha_t - \theta_1 \alpha_{t-1} - \theta_2 \alpha_{t-2} - \dots - \theta_p \alpha_{t-p} $
    • ACF는 절단점 존재, PACF는 빠르게 감소
  • 자기회귀누적이동평균모형(ARIMA(p,d,q))
    • $Z_t =  \alpha_1 - \theta_1 \alpha_{t-1} - \theta_2 \alpha_{t-2} $
    • d(차분) = 0 이면 정상성 만족, p=0 이면 d번 차분한 MA(q) 모델, q=0이면 d번 차분한 AR(p) 모델

4) 분해 시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

  • 추세요인: 형태가 오르거나 또는 내리는 추세. 선형, 이차식, 지수 형태
  • 계절요인: 요일, 월, 사분기 별로 변화하야 고정된 주기에 따라 자료 변화
  • 순환요인: 명백한 경제적, 자여적 이유없이 알려지지 않은 주기로 자료 변화
  • 불규칙요인: 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

 

[다차원 척도법]

1) 정의 및 목적

  • 군집분석과 같이 개체들을 대상으로 변수들을 측정한 수, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간 상에서 점으로 표현하는 분석방법
  • 목적: 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현
  • 데이터 축소의 목적

2) 방법

  • 개체들의 거리 계산은 유클리드 거리행렬 활용
    • $ d(x, y) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \dots + (x_p - y_p)^2 } $
  • STRESS: 개체들을공간상에 표한하기 위한 방법으로 STRESS나 S-STRESS를 부적합도 기준으로 사용
    • 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행

3) 종류

  • 계량적 MDS (Metric MDS)
    • 데이터가 구간척도나 비율척도인 경우 활용 (전통적인 다차원척도법)
    • N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들 간의 유클리드 거리행렬을 계산하고 개체들 간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현
  • 비계량적 MDS (Nonmetric MDS)
    • 데이터가 순서척도인 경우 활용
    • 개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성한 후 적용

 

[주성분분석]

1) 정의 및 목적

  • 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로, 선형결합으로 변수를 축약, 축소하는 기법
  • 목적: 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리. 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도 개선, 회귀분석에서 다중공선성 최소화

2) 주성분분석 vs 요인분석

  • 요인분석: 등간척도(혹은 비율척도)로 두 개 이상의 변수들에 잠재되어 있는 공통 인자를 찾아내는 기법
  • 공통점: 모두 데이터를 축소하는데 활용, 몇 개의 새로운 변수들로 축소
차이점 생성된 변수의 수와 이름 생성된 변수들 간의 관계 목표변수와의 관계
요인분석 몇 개로 지정할 수 없으나, 이름 붙일 수 있음 생성된 변수들이 기본적으로 대등한 관계 목표변수를 고려하지 않고 주어진 변수들 간 비슷한 성격들을 묶음
주성분분석 제1주성분, 제2주성분...을 생성 (보통 2개), 이름은 제1주성분과 같이 정해짐 제1주성분, 제2주성분 순으로 중요함 목표변수를 고려하여 주성분 변수 생성

3) 주성분의 선택법

  • 누적기여울 cumulative proportion이 85% 이상이면 주성분의 수로 결정할 수 있음
  • screen plot에서 고유값(eigen vector)이 수평을 유지하기 전 단계로 주성분의 수를 선택

'STATISTICS > ADsP' 카테고리의 다른 글

3-5. 정형 데이터 마이닝  (1) 2020.08.28
3-3. 데이터 마트  (0) 2020.08.25
3-2. R프로그래밍 기초  (0) 2020.08.23
3-1. 데이터 분석 기법의 이해  (0) 2020.08.22
2-2. 분석 마스터 플랜  (0) 2020.08.22