시계열&계량경제학

패널 회귀 분석 #1 패널 데이터와 Unobserved Heterogeneity

seungbeomdo 2023. 6. 12. 23:09

패널 데이터(Panel Data)

 

  • 복수의 개체를 복수의 시점에서 관측한 데이터를 패널 데이터
    • 횡단면 데이터(Cross-sectional): 복수의 개체를 하나의 시점에서 관측
    • 시계열 데이터(Time-series): 하나의 개체를 복수의 시점에서 관측

 

  • 패널회귀모델에서 변수는 2가지 차원의 변동이 가능하다.

$$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$

  • $i$는 개체를, $t$는 시점을 나타내는 변수

 

  • 반면 횡단면 혹은 시계열 데이터에서는 다음과 같은 회귀식

$$Y_{i} = \mathsf{X}_{i}^{T}\beta + U_{i}$$

 


Pooled OLS

 

  • 패널데이터로 회귀분석을 실시하는 가장 단순한 방법은 패널의 구조를 무시하고 그냥 횡단면 데이터처럼 취급하여 OLS를 구하는 것이다.

$$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$

$$\hat{\beta}_{n} = (\mathsf{X}^{T}\mathsf{X})^{-1}(\mathsf{X}^{T}\mathsf{Y})$$

 

  • 패널데이터 하에서 OLS 추정량이 적어도 일관성을 가지려면 외생성을 만족해야 한다.

$$E(\mathsf{X}_{i,t}U_{i,t})=0$$

 

  • 또한 OLS 추정량이 효율적이려면 다음의 조건도 필요하다. 즉, 시계열적 상관이 존재하지 않고 등분산성을 충족해야 한다.

$$U_{i,t}|X_{i,t} \sim i.i.d. (0, \sigma^{2})$$

 


Unobserved Heterogeneity

 

  • 다음과 같은 패널회귀모형이 있다.

$$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$

  • 이때 이런 질문을 가질 수 있다. 서로 다른 개체 간에는 오차의 크기가 다르지 않을까? 즉 각 개체는 자기만의 고유한 오차를 가지지 않을까?

 

  • 예를 들어, 학생들의 성적과 공부시간 간의 회귀방정식을 생각해보자.

$$Grade_{i,t} = \beta *Time_{i,t} + U_{i,t}$$

 

  • 이 회귀식의 오차항에는 공부시간이 아닌, 관측되지 않은 다른 요인들이 담겨있다. 학생의 건강상태, 부모를 비롯한 학습환경 등등이다.
  • 관측되지 않은, 개체마다 고유한 다른 특성을 Unobserved Heterogeneity라고 부른다.

 

  • 그런데 이러한 오차항은 학생마다 고유하다. 예를 들어 부모님이 어렸을 때부터 학습습관을 잘 잡아준 학생은, 공부시간이 동일하더라도, 그렇지 못한 학생보다 더 높은 성적을 받을 가능성이 크다. 즉 전자인 학생의 오차는 후자인 학생의 오차보다 조금 더 크다.

 

  • 횡단면 회귀분석에서는 이러한 개인별 오차를 반영해주기 어렵다. 왜냐하면 횡단면 데이터에서는 각 학생이 데이터셋에 한 번씩만 등장하기 때문이다.
  • 어떤 학생에게 발생하는 오차가 다른 학생에게 발생하는 오차보다 크다는 것을 신뢰할 만한 사실로 받아들이려면 두 학생의 데이터를 여러번 관찰해야 한다.
  • 패널 데이터에서는 이것이 가능하다. 패널 데이터는 두 학생의 성적과 학습시간 데이터를 복수의 시간동안 관찰한 것이기 때문이다.

 

  • 구체적으로, 패널 데이터에서는 다음과 같이 오차항을 모델링한다.

$$Grade_{i,t} = \beta *Time_{i,t} + U_{i,t}$$

where

$$U_{i,t} = \mu_{i} + \epsilon_{i,t}$$

 

  • $\mu_{i}$를 개별효과, individual effect라고 부른다. 이를 time-invariant하다고 말한다.
  • $\mu_{i}$는 시간의 영향을 받지 않고, 개인별로만 차이가 있는 변수이다.

 

  • $\epsilon_{i,t}$는 고유오차, idiosyncratic error라고 부른다.
  • 개체나 시간에 따른 체계적 영향을 받지 않는 오차항이며, 독립이다.

$$\epsilon_{i,t} \sim i.i.d. (0, \sigma_{\epsilon}^{2})$$

$$E(\mu_{i} \epsilon_{i,t}) = 0$$

$$E(X_{i,t}\epsilon_{i,t}) = 0$$