패널 데이터(Panel Data)
- 복수의 개체를 복수의 시점에서 관측한 데이터를 패널 데이터
- 횡단면 데이터(Cross-sectional): 복수의 개체를 하나의 시점에서 관측
- 시계열 데이터(Time-series): 하나의 개체를 복수의 시점에서 관측
- 패널회귀모델에서 변수는 2가지 차원의 변동이 가능하다.
$$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$
- $i$는 개체를, $t$는 시점을 나타내는 변수
- 반면 횡단면 혹은 시계열 데이터에서는 다음과 같은 회귀식
$$Y_{i} = \mathsf{X}_{i}^{T}\beta + U_{i}$$
Pooled OLS
- 패널데이터로 회귀분석을 실시하는 가장 단순한 방법은 패널의 구조를 무시하고 그냥 횡단면 데이터처럼 취급하여 OLS를 구하는 것이다.
$$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$
$$\hat{\beta}_{n} = (\mathsf{X}^{T}\mathsf{X})^{-1}(\mathsf{X}^{T}\mathsf{Y})$$
- 패널데이터 하에서 OLS 추정량이 적어도 일관성을 가지려면 외생성을 만족해야 한다.
$$E(\mathsf{X}_{i,t}U_{i,t})=0$$
- 또한 OLS 추정량이 효율적이려면 다음의 조건도 필요하다. 즉, 시계열적 상관이 존재하지 않고 등분산성을 충족해야 한다.
$$U_{i,t}|X_{i,t} \sim i.i.d. (0, \sigma^{2})$$
Unobserved Heterogeneity
- 다음과 같은 패널회귀모형이 있다.
$$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$
- 이때 이런 질문을 가질 수 있다. 서로 다른 개체 간에는 오차의 크기가 다르지 않을까? 즉 각 개체는 자기만의 고유한 오차를 가지지 않을까?
- 예를 들어, 학생들의 성적과 공부시간 간의 회귀방정식을 생각해보자.
$$Grade_{i,t} = \beta *Time_{i,t} + U_{i,t}$$
- 이 회귀식의 오차항에는 공부시간이 아닌, 관측되지 않은 다른 요인들이 담겨있다. 학생의 건강상태, 부모를 비롯한 학습환경 등등이다.
- 관측되지 않은, 개체마다 고유한 다른 특성을 Unobserved Heterogeneity라고 부른다.
- 그런데 이러한 오차항은 학생마다 고유하다. 예를 들어 부모님이 어렸을 때부터 학습습관을 잘 잡아준 학생은, 공부시간이 동일하더라도, 그렇지 못한 학생보다 더 높은 성적을 받을 가능성이 크다. 즉 전자인 학생의 오차는 후자인 학생의 오차보다 조금 더 크다.
- 횡단면 회귀분석에서는 이러한 개인별 오차를 반영해주기 어렵다. 왜냐하면 횡단면 데이터에서는 각 학생이 데이터셋에 한 번씩만 등장하기 때문이다.
- 어떤 학생에게 발생하는 오차가 다른 학생에게 발생하는 오차보다 크다는 것을 신뢰할 만한 사실로 받아들이려면 두 학생의 데이터를 여러번 관찰해야 한다.
- 패널 데이터에서는 이것이 가능하다. 패널 데이터는 두 학생의 성적과 학습시간 데이터를 복수의 시간동안 관찰한 것이기 때문이다.
- 구체적으로, 패널 데이터에서는 다음과 같이 오차항을 모델링한다.
$$Grade_{i,t} = \beta *Time_{i,t} + U_{i,t}$$
where
$$U_{i,t} = \mu_{i} + \epsilon_{i,t}$$
- $\mu_{i}$를 개별효과, individual effect라고 부른다. 이를 time-invariant하다고 말한다.
- $\mu_{i}$는 시간의 영향을 받지 않고, 개인별로만 차이가 있는 변수이다.
- $\epsilon_{i,t}$는 고유오차, idiosyncratic error라고 부른다.
- 개체나 시간에 따른 체계적 영향을 받지 않는 오차항이며, 독립이다.
$$\epsilon_{i,t} \sim i.i.d. (0, \sigma_{\epsilon}^{2})$$
$$E(\mu_{i} \epsilon_{i,t}) = 0$$
$$E(X_{i,t}\epsilon_{i,t}) = 0$$
'시계열&계량경제학' 카테고리의 다른 글
패널 회귀 분석 #3 고정효과 모형 (Fixed Effect) (0) | 2023.06.15 |
---|---|
패널 회귀 분석 #2 임의효과 모형 (Random Effect) (1) | 2023.06.14 |
계량경제학 #12 비정상 시계열 회귀분석 (3): 가성회귀, 공적분, 오차수정모형 (0) | 2023.06.12 |
계량경제학 #11 비정상 시계열 회귀분석 (2): Stochastic Time Trend (3) | 2023.06.12 |
계량경제학 #10 비정상 시계열 회귀분석 (1): Deterministic Time Trend (0) | 2023.06.04 |