하기 작성된 내용들은 2020년 1월 14일 고려대학교 통계연구소 동계 워크숍 최상범 교수님의 강의 자료와 내용을 정리한 것입니다.
무단 공유 및 배포를 금합니다.
패널자료란?
- 패널조사란?
- 조사대상이 되는 개체를 선정하고 이 개체에 대해 동일한 항목들을 반복적으로 조사하는 연구를 패널자료연구(panel study)라 함
- 조사 대상 개체를 패널이라 부름
- 경시적자료(longitudinal data)라고도 함
- 반복측정자료(repeated measures data), 다수준자료(multilevel data), 계층적자료(hierarchical data)의 특수한 형태로 볼 수 있음
- 패널조사의 수집
- 패널의 선정은 일반 조사의 표본 선정 방법과 동일
- 조사 시점을 정해서 반복적으로 측정하는 것이 일반적
- 전향적 연구(prospective study)로 진행하는 것이 일반적
패널자료의 장점
- 설명변수들과 반응변수간의 연관성 조사 가능
- 각 패널에 대한 반복 측정에 따른 (시간이 지남에 따른) 변동 파악 가능
- 주기적으로 반복 측정하기 때문에 동적 연구 가능
- 횡단면 또는 시계열 자료에 비해 더 많은 정보와 변수를 포함하고 있어 다중공선성(multi-collinearity) 문제를 완화할 수 있으므로 효율적인 추정량 얻을 수 있음
패널자료의 특징
- 여러 자료에 대해 여러 기간 동안 분석해, 시계열 자료와 횡단면 자료의 특성을 모두 갖춘 자료
- 패널조사 자료의 표현
- Wide form(type): 각 패널은 한 행(row)에 나타나고 반복시점은 각 열(column)에 변수로 표현되는 자료 형태
- Long form(type): 각 패널의 반복적으로 측정된 반응변수 값들을 각각의 행에 표시하는 자료 형태로서 각 패널의 측정값이 여러 행에 걸쳐 표기됨. 대부분의 패널자료 분석 프로그램이 이 형태의 자료로 입력 요구됨
패널자료의 탐색
- 분석을 실시하기 전 자료의 여러 특성을 파악하는 것이 중요
- 반복된 시점에 따른 각 패널의 변동을 나타낸 그림 유용
- 패널의 수가 많은 경우 전체적 패턴을 보기 어려우므로 랜덤하게 선택한 일부 패널들의 시점에 따른 변동 그릴 수 있음
- 설명 변수의 그룹에 따른 비교가 관심인 경우 비교를 할 그룹별로 패널 변동 그림을 그리는 것이 도움 됨
- 반응변수의 분포에 따라 자료를 변환하거나 평균 대신 강건한 추정량의 그림이 적절할 수 있음
패널자료
- $N$ 명의 패널에 대해 $k$ 번 측정한 자료
- 패널자료의 반응 변수 $Y$
- 각 패널에 대해 반복적으로 반응변수를 측정하므로 이를 $Y_{ij}$ 로 표현
- $i(i=1, \dots, N)$ 는 패널을, $j(j=1, \dots, n_i)$ 는 반복 시점을 나타냄
- 패널자료의 설명변수 $X_1, \dots, X_p$
- 설명변수는 일반적인 선형 모령에서 설명 변수 선정 방법과 동일하게 선택
- 반복된 시점(time)에 관한 설명 변수 추가가 일반적
- 설명변수는 $X_{ijk}$ 로 나타냄 $i(i=1, \dots, N)$ $j(j=1, \dots, n_i), k=1, \dots, p$
- 설명변수는 시간에 따라 변동하지 않는 변수와 시간에 따라 변동하는 변수(time-varying covariate) 모두 가능
- Time을 설명변수에 포함하는 것이 일반적
패널자료 모형
- 패널조사 자료 특성
- 각 패널은 서로 독립이라 가정
- 한 패널에 대해 동일한 변수가 여러번 측정되므로 서로 연관성이 존재
- 일부 패널에서 특정 시점에 관찰값이 결측인 경우 발생
- 패널조사 모형
- 반응변수의 평균과 설명변수간 연관성에 관한 모형화 필요
- 패널 간 독립성과 패널 내 반복 특정간 연관성을 동시에 고려하는 분산에 관한 모형화 필요
- 패널들은 일관성 있는 추세를 보인다 가정
평균에 관한 모형
- 회귀분석에서 설명 변수들을 설정하는 방법과 유사하며 시간에 따른 설명변수의 효과 변화를 고려할 수 있음
- 설명 변수 각각에 관하여 시간에 따른 연관성을 모형화
- 설명 변수의 주효과(main effect)를 모형에 포함시켰을 때 설명변수의 효과는 시간에 걸쳐 동일하다고 가정
- 필요한 경우 설명 변수 간 교호작용(interaction) 포함 가능
- 측정 형태에 따라 연속형 또는 범주형으로 설정하여 모형에 포함
시간을 범주형으로 설정
- baseline(time=0), 3,6,9,12,15,19 years에 측정되었다고 가정
- baseline을 reference group으로 가정하고 6개의 지시 변수를 만들어 모형에 포함
$$E(Y_{ij}) = \beta_0 + \beta_1 X_{i1} + \beta_2 T3_{ij} + \beta_3 T6_{ij} + \beta_4 T9_{ij} + \beta_5 T12_{ij} + \beta_6 T15_{ij} + \beta_7 T19_{ij}$$ - 데이터 관측시점이 많지 않을 때 사용
시간을 연속형으로 설정
$$E(Y{ij}) = \beta_0 + \beta_1 X_{i1} + \beta_2 Time_{ij} ( + \beta_3 Time_{ij}^2)$$
- 시간에 따른 반응변수의 선형적 증가 또는 감소를 가정
- 시간에 따라 반응변수의 평균이 포물선을 그리는 경우 시간의 이차항 추가 포함
- 특정 시간($t^*$ 시점) 이후 기울기가 바뀌는 형태 가정 가능
$$E(Y_{ij}) = \beta_0 + \beta_1 X_{i1} + \beta_2 Time_{ij} + \beta_3 \left( Time_{ij} - t^* \right)$$
$$(Time_{ij}-t^*) = \matrix { {Time_{ij}-t^*} & {Time_{ij} \geq t^*} \cr 0 & otherwise }$$
교호작용 추가
시간에 따른 집단의 비교가 주요 목적인 경우 집단과 시점의 교호작용 포함
- 범주형 시간 변수와 그룹 변수의 교호작용 추가
$E(Y_{ij}) = \beta_0 + \beta_1 X_{i1} + \beta_2 T3_{ij} + \beta_3 T6_{ij} + \beta_4 T9_{ij} + \beta_5 T12_{ij} + \beta_6 T15_{ij} + \beta_7 T19_{ij}$
$ \quad \quad \quad + \beta_8 X_{i1} \times T3_{ij} + \beta_9 X_{i1} \times T6_{ij} + \beta_{10} X_{i1} \times T9_{ij} + \beta_{11} X_{i1} \times T12_{ij} + \beta_{12} X_{i1} \times T15_{ij} + \beta_{13} X_{i1} \times T19_{ij} $ - 연속형 시간 변수와 그룹 변수의 교호작용 추가
$E(Y_{ij}) = \beta_0 + \beta_1 X_{i1} + \beta_2 Time_{ij} + \beta_3(X_{ij} \times Time_{ij}^2)$
분산에 관한 모형
Unstructured covariance
- 특정한 패턴이 없음
- 반복측정의 숫자가 많은 경우 추정해야 하는 모수(parameter)의 수가 기하급수적으로 늘어남
Covariance pattern models
- 특정한 패턴이 있다고 가정
- 반복 시점간 연관성은 항상 동일하다 가정
1) Compound Symmetry
- 추정해야하는 모수 2개로 절약모형(parsimoniousmodel)
- random effecrs model에서 동일한 모형 적합 가능
2) Autoregressive
- $Cov(Y_{ij}, Y_{ij+1}) = \rho^l$ 가정
- 시점 간 거리가 동일한 경우 연관성은 동일하며 시점 간 거리가 멀어질수록 연관성 감소하는 패턴
- 추정 모수 2개
- 1차 자기상관(first order autocorrelation) 가정하는 시계열모형
3) Exponential
- $Cov(Y_{ij}, Y_{ij+1}) = \sigma^2 \rho^{|Y_{ij} - Y_{ij+1}|} \sigma^2 exp ( - \theta |Y_{ij} - Y_{ij+1}|), \quad where \theta = -log(\rho)$ 가정
- 시점 간 거리가 동일한 경우 연관성은 동일하며 시점 간 거리가 멀어질수록 연관성은 exponentially 감소 패턴
- 추정 모수 2개
random effects covariance structure
랜덤효과를 통한 연관성 모형화
분산에 관한 모형의 선택
- 설명변수를 포함하여 일반 회귀분석을 실시하면 잔차 $r_{ij}=Y_{ij} - X_{ij} \hat{\beta}$를 얻을 수 있고 잔차의 분산공분산행렬을 계산하면 분산에 관한 모형 선택에 도움
- 동일한 설명 변수를 포함한 모형에 대해 여러가지 분산 형태를 가정하고 모형 적합 후 AIC(Akaike Information Criterion)나 BIC(Bayesian Information Criterion) 등 정보 기준을 비교하여 최종적인 분산 형태 선택 가능. 두 모형 중 작은 모형이 큰 모형에 내포된 경우 long likelihood를 비교하는 방법도 제안
- 분산에 관한 모형 선택 시 평균에 관한 모형은 포화모형(saturated model) 선택
패널자료의 일반선형모형
$$Y_{ij} = \beta_0 + X_{ij1} \beta_1 + \dots + X_{ijp} \beta_p + \epsilon_{ij}$$
- $\epsilon_{ij}$ : $i$ 번째 패널의 $j$ 번째 측정과 연관된 오차
- 패널자료에서 $Y_i = (Y_{i1}, Y_{i2}, \dots , Y_{in} )^\prime$ 는 서로 연관되어 있으므로 연관성을 $\sum_i$ 로 표현
- 각 패널은 서로 독립이므로 전체 자료 $Y = (Y_1, Y_2, \dots , Y_N)^\prime$에 대한 분산공분산행렬은 블록대각행렬(block diagonal matrix)의 형태를 따른다고 가정
패널자료 일반선형모형 모수 추정
1) 가중최소제곱법(weighted least-squares method)
- $\sum^{-1}$ 를 가중치(weight)로 가진 가중최소제곱법으로 모수 추정
- 분산에 관한 모형이 틀리더라도 회귀계수 $\beta$ 는 편향되지 않게 추정할 수 있으나 검정을 위한 회귀계수의 표준오차는 영향 받을 수 있음
2) 최대가능도법(maximum likelihood method, ML)
- 자료 $Y$ 가 정규분포를 따른 다고 가정 후
$$L(\beta, \sum_i) \propto -\frac{1}{2} \sum_{i=1}^N log | \sum_i | - -\frac{1}{2} { \sum_{i=1}^N (Y_i - X_i \beta)^\prime \sum_i^{-1} (Y_i - X_i \beta)}$$
를 최대화하는 회귀계수 $\beta$와 분산공분산 행렬 $\sum^{-1}$ 의 모수를 동시에 추정하는 추정 방법 - $\sum^{-1}$ 의 모수를 추정하는 단계에서는 설명변수의 디자인 행렬(design matrix)이 필요하므로 포화모형이 필요한데 패널자료 모형의 경우 포화모형을 설정하는 것이 쉽지 않을 수 있음
- $\sum^{-1}$ 의 모수는 mle는 불편추정량이 아니므로 회귀계수의 모수가 추가될수록 편향이 증가하는 경향이 있음
3) 제한최대가능도법 (restricted maximum likelihood method, REML)
- 최대가능도법에서 발생하는 편향을 줄이기 위해 제안된 방법
- 분산 $\sum^{-1}$ 의 모수의 추정을 회귀계수 $\beta$의 추정과 분리하여 진행하는 방법
- 예를 들어 자료 변환을 통해 회귀계수 $\beta$와 연관되지 않은 분포로부터 $\sum^{-1}$ 의 모수를 추정하는 방법
- 패널의 숫자가 크지 않은 경우 최대가능도 방법보다 선호
패널자료 일반선형모형 모수의 분산
- 분산에 관한 모형은 자료에 근거하여 결정되는데 참모형(true model)은 알 수 없음
- $\sum$ 가 부정확하게 추정되면 회귀계수 $\beta$ 의 분산이 편향되게 추정되므로 신회구간을 구하거나 검정을 실시할 떄 문제가 발생할 수 있음
- $\sum$ 의 오지정(misspecification)에 민감하지 않은 강건한(robust) $\beta$ 의 표준오차의 추정량(sandwich estimator)을 구하는 방법이 제안
'STATISTICS > 고려대학교 통계연구소 2020 동계 통계워크샵' 카테고리의 다른 글
분산분석 이론 (0) | 2020.01.25 |
---|---|
선형회귀 및 로지스틱 회귀 (0) | 2020.01.19 |
선형회귀분석 (0) | 2020.01.13 |
기초통계이론 2 (0) | 2020.01.12 |
기초통계이론 1 (0) | 2020.01.10 |