시계열&계량경제학

계량경제학 #6 내생성 가정 하에서의 선형회귀 모형 (1): IV, TSLS

seungbeomdo 2023. 5. 21. 15:23

  • 모형에 내생성 문제가 존재하는 경우, OLS 추정량은 더이상 모수에 대한 일치추정량이 아니다.

 

  • 일치성이 지켜지지 않는 문제는 효율성이 지켜지지 않는 문제보다 훨씬 심각하다. 일치성이 지켜지지 않을 경우, 모형을 추정하는 기본적인 목적(인과관계 파악)을 달성할 수 없기 때문이다. 애초에 추정된 회귀계수가 무엇을 추정하는 것인지도 알 수가 없다.

 

  • 만약 내생성의 원인이 변수 누락에 있다면, 누락된 변수를 모형에 추가하면 된다. 누락된 변수를 구할 수 없다면 적당한 대리변수(proxy)를 사용하면 된다.

 

  • 그런데 적당한 대리변수조차 찾을 수 없거나, 얼마나 많은 변수들이 누락된 것인지 알 수 없거나, 혹은 동시성의 문제가 존재하는 것이라면 아예 다른 해결방안을 찾아야 한다. 그 방법이 도구변수이다.

1. 도구변수 추정 (IV)

1) 모형의 가정

  • 가정되는 모형은 다음과 같다.

$$Y_{t} = {X}_{t}^{T}\beta_{*} + U_{t}$$

 

  • IID 가정이나 선형성, 비특이성과 같은 기본적인 조건은 지켜진다고 하자. 동분산성이나 정규성은 가정하지 않아도 된다. 일치성 문제는 동분산성 및 정규성 가정과는 무관하게 처리한다. 동분산성 및 정규성 문제들은 이전 글들에서 사용한 방법들을 적용해서 별도로 처리하면 된다.

 

  • 외생성 가정은 당연히 적용되지 않는다. 다만 다음과 같은 가정이 추가된다.
  • 어떤 적당한 변수 $Z_{t}$가 존재해서 다음의 조건을 만족한다.
  • (1) $Z_{t}$는 $X_{t}$와 동일한 차원을 갖는 벡터 변수이다.
  • (2) $Z_{t}$는 $X_{t}$와 상관을 갖는다. $E[{Z}_{t}{X}_{t}^{T}] ≠ 0$
  • (3) $Z_{t}$는 $U_{t}$와 상관을 갖지 않는다. $E[{Z}_{t}U_{t}] = 0$

 

  • 세번째 조건은 특히 직교성(Orthogonality)이라고도 불린다.
  • 열거한 조건들을 모두 만족하는 변수 ${Z}_{t}$를 모형의 도구변수(Instrumental Variable)라고 한다.

 

2) IV 추정량

  • 도구변수를 사용한 추정량을 IV 추정량이라고 한다.

 

  • IV 추정량은 다음과 같이 정의한다.

$$\tilde{\beta}_{n} = (\mathsf{Z}^{T}\mathsf{X})^{-1}(\mathsf{Z}^{T}\mathsf{Y})$$

 

  • IV 추정량이 일치성을 가지는 것은 수리적인 증명 외에는 다른 방법이 없다. 굳이 직관을 넘어서는 내용까지 설명할 필요는 없는 것 같아서 생략하기로 하자(필요한 사람은 댓글 남겨주시면 메일로 증명 pdf 쏴드림.. 근데 누가 읽고 있을까..).

 

  • Note: OLS 추정량은 IV 추정량의 특수한 형태이다. 왜냐하면, 외생성이 성립해서 독립변수가 곧 직교성을 만족하는 도구변수라면, IV 추정량이 OLS 추정량이 되기 때문이다.

2. 2단계 최소제곱 추정 (TSLS)

  • 도구변수보다 완화된 가정을 가진 방법으로 TSLS가 있다. Two-Stage-Least-Squared 방법의 줄임말인데, 왜 이런 이름이 붙었는지는 조금 이따가 설명한다.

 

1) 모형의 가정

  • 가정되는 모형 및 조건들은 IV 추정량과 동일하다.

$$Y_{t} = {X}_{t}^{T}\beta_{*} + U_{t}$$

 

  • 다만 도구변수에 대한 가정이 약간 완화된다.
  • 어떤 적당한 변수 $Z_{t}$가 존재해서 다음의 조건을 만족한다.
  • (1) $Z_{t}$는 $X_{t}$보다 크거나 같은 차원을 갖는 벡터 변수이다.
  • (2) $Z_{t}$는 $X_{t}$와 상관을 갖는다. $E[{Z}_{t}{X}_{t}^{T}] ≠ 0$
  • (3) $Z_{t}$는 $U_{t}$와 상관을 갖지 않는다. $E[{Z}_{t}U_{t}] = 0$

 

  • (1)번 조건에서 도구변수의 차원이 독립변수보다 클 수도 있다는 조건이 추가되었다. 만약 두 벡터의 차원이 동일하면 TSLS는 IV와 동일하다. 따라서 IV는 TSLS의 특수한 형태이다(OLS는 IV에 포함되고, IV는 다시 TSLS에 포함되는 관계).

 

2) TSLS 추정량

  • TSLS 추정량은 다음과 같이 정의한다.

$$\tilde{\beta}_{n} = (\hat{\mathsf{X}}^{T}\hat{\mathsf{X}})^{-1}(\hat{\mathsf{X}}Y)$$

  • 이때

$$\hat{\mathsf{X}} = \mathsf{Z}(\mathsf{Z}^{T}\mathsf{Z})^{-1}\mathsf{Z}^{T}\mathsf{X}$$

 

TSLS의 직관적 의미

  • 새로 정의된 $\hat{\mathsf{X}}$는 마치 독립변수 $\mathsf{X}$를 도구변수 $\mathsf{Z}$로 회귀시킨 값(fitted value)이라고 할 수 있다.

 

  • 왜냐하면,

$$(\mathsf{Z}^{T}\mathsf{Z})^{-1}\mathsf{Z}^{T}\mathsf{X}$$

  • 는 마치 다음과 같이 $\mathsf{X}$를 $\mathsf{Z}$에 대해서 회귀시키는 모형에서 OLS 회귀계수 $\gamma$로 해석되기 때문이다.

$$X_{t} = {Z}_{t}\gamma + E_{t}$$

 

  • 따라서 TSLS 추정량 $\tilde{\beta}_{n}$는 다음과 같은 모형의 OLS 회귀계수와 동일하다.

$$Y_{t} = \hat{X}_{t}^{T}\beta + U_{t}$$

 

  • 즉 도구변수 $Z_{t}$를 가지고 독립변수 $X_{t}$를 회귀시킨 후에, 회귀된 값으로 다시 종속변수 $Y_{t}$를 회귀시키는 것이다. 이것이 Two-Stage-Least-Squared 방법의 의미이다.

 

  • TSLS가 내생성 상황에서도 일치성을 달성할 수 있는 이유도 여기에 숨겨져있다. 내생성의 문제는 독립변수가 오차항과 상관을 가지기 때문에, $Y$의 변화 중에서 순수하게 독립변수에 기인한 부분과 오차항에 기인한 부분을 분리할 수 없음을 의미한다.
  • 만약 독립변수가 변화했을 때, 오차항에 영향을 주지 않고 $Y$에만 영향을 주는 상황을 강제로 만들 수 있다면, 우리는 순수한 독립변수의 영향력만을 추정할 수 있다.

 

  • TSLS는 바로 이것을 가능하게 해준다.
  • TSLS는 (1) 도구변수에 의한 독립변수의 변화를 추정한다. 이때 도구변수는 오차항과 상관이 없으므로, 도구변수에 의해 독립변수가 변화할 때, 오차항에는 변화가 없다.
  • (2) 도구변수에 의해 독립변수가 변화하면, $Y$가 얼만큼 변화했는지를 추정한다. 다시 강조하자면, 도구변수에 의해 독립변수가 변화한 경우 오차항에는 변화가 없으므로, 이때 $Y$의 변화는 오직 독립변수의 영향력에만 기인한다.