시계열&계량경제학

계량경제학 #5 내생성 문제 (Endogeneity)

seungbeomdo 2023. 5. 20. 19:17

 

 

1. 외생성: Exogeneity

  • 외생성 조건은 다음과 같다.

$$E[\mathsf{X}_{t}U_{t}] = 0$$

 

외생성의 직관적 의미

  • 외생성 조건은 모형의 독립변수가 외생적이라는 의미이다. 외생적이라는 것은 모형 바깥에서 이미 결정돼 주어진다는 의미이다. 즉 독립변수가 진짜 독립적인가?를 묻는 조건이다.
  • 외생적이지 못한 독립변수는 내생적(Endogeneous)이라고 말한다.

 

  • 외생성의 수식적 표현에서 볼 수 있듯이, 외생성이 존재하면 독립변수와 오차 간의 상관이 존재한다. 이는 독립변수가 오차에 영향을 주고, 혹은 오차가 독립변수에 영향을 주는 관계가 존재한다는 것이다.
  • 독립변수는 우리가 모형 내에서 통제하는 요인이지만, 오차는 우리가 통제하지 못하는 요인이다. 통제되는 요인에 통제되지 않은 요인이 뒤섞여서 종속변수에 영향을 미치는 것이기 때문에, 우리는 무엇이 진짜 독립변수의 영향인지 구별할 수 없게 된다.

2. 추정량의 일관성 (Consistency)

  • 외생성 조건이 지켜지지 않는 경우 OLS 추정량은 모수에 대한 일관성을 갖지 못한다.

 

  • 왜 그런지 간단한 예시를 들어보자. 간단한 1변수 선형회귀 모델이 다음과 같이 주어졌다.

$$Y_{t} = \beta_{*}X_{t} + U_{t}$$

 

  • 우리는 오차항이 독립변수와 상관이 있을 수도 있는 경우를 다루고 있다. 이럴 경우 오차항의 조건부 평균이 0이라는 보장이 없다. 따라서,

$$E[Y_{t}|X_{t}] = \beta_{*}X_{t} + E[U_{t}|X_{t}]$$

  • $X_{t}$에 대한 조건부 평균은, $X_{t}$에 대한 임의의 함수이다. 편의상 그 함수가 선형적이라고 가정하고(일반성의 상실 없이; WLOG), 오차항의 조건부 평균을 다음과 같은 함수로 정의하자.

$$E[U_{t}|X_{t}] = \delta X_{t}$$

  • $\delta$가 0이라면 오차항과 $X_{t}$가 상관이 없다는 것이다.

 

  • 이때 우리의 조건부 평균 모형은

$$E[Y_{t}|X_{t}] = \beta_{*}X_{t} + \delta X_{t} = (\beta_{*} + \delta) X_{t}$$

 

  • 우리가 추정하고자 하는 것은 ‘다른 것이 불변이고' $X_{t}$가 1단위 증가할 때 $Y_{t}$의 평균적인 변화이다. 즉, $\beta_{*}$를 구하려고 하는 것이다.
  • 그런데 실제 데이터에서는 ‘다른 것이 불변인 상태에서’ $X_{t}$의 변화만을 관찰하는 것이 불가능하다. 따라서 ‘다른 것이 불변’이라는 조건이 없이 그저 $X_{t}$가 변화할 때 $Y_{t}$의 변화를 관찰하여 베타를 추정한다.
  • 그러므로 $X_{t}$가 변화할 때, 오차항이 함께 변화하여 $Y_{t}$에 미치는 영향($\delta$)도 반영하게 된다.

 

  • 만약 오차항과 독립변수가 외생적이라면, $\delta$가 제로가 되므로 주어진 데이터에서 독립변수의 순수한 영향력만을 추정할 수 있다.
  • 그렇지 않으면, 추정된 베타는 $\beta_{*}$를 추정하지 않고 엉뚱한 값$(\beta_{*} + \delta)$을 추정하게 된다. 샘플 수가 아무리 커지더라도 마찬가지이다.

3. 내생성의 원인

  • 내생성의 원인은 크게 2가지이다.

 

1) 변수 누락

  • 첫째는 변수 누락이다. 종속변수에 중요한 영향을 미치면서, 다른 독립변수와 상관을 가지는 어떤 독립변수가 누락되는 것이다. 예시를 들어보자.

 

  • True Model 혹은 Data Generating Process는 다음과 같고, 외생성을 만족한다.

$$Y_{t} = \beta_{1}X_{t1} + \beta_{2}X_{t2} + U_{t}$$

  • 이때,

$$E(X_{t1}X_{t2}) ≠ 0, E(X_{t1}U_{t}) = 0$$

 

  • 잘못 추정된 Model은 다음과 같다.

$$Y_{t} = \beta_{1}X_{t1} + \epsilon_{t}$$

 

  • 이때 오차항은

$$\epsilon_{t} = Y_{t} - \beta_{1}X_{t1} = \beta_{2}X_{t2}+U_{t}$$

 

  • 외생성 조건을 확인해보면

$$E(X_{t1}\epsilon_{t}) ≠0$$

  • 왜냐하면 $\epsilon_{t}$에 포함된 $X_{t2}$가 $X_{t1}$과 상관되기 때문이다.

 

2) 동시성

  • 둘째는 동시성(Simultaneity)이다. 가격이 판매량에 미치는 영향을 알아본다고 하자.

$$Q_{t} = \beta P_{t} + U_{t}$$

 

  • 가격 외에 다른 요인에 의해 판매량이 증가했다고 하자. 가령 갑자기 어떤 유행이 발생해서 상품에 대한 수요가 증가한 것이다.
  • 근데 그러면 가격도 증가할 가능성이 높다. 왜냐하면 자기 상품에 대한 유행을 감지한 판매자는, 이윤을 늘리기 위해 가격을 높일 것이기 때문이다.

 

  • 이처럼 독립변수가 오차항과 함께 움직이는 상황에서도 내생성이 존재한다.

 

  • 사실 동시성이나 변수 누락이나 크게 구분할 것은 없어보인다. 차이라고 한다면, 변수 누락은 독립변수가 오차에 영향을 주는 문제이고. 동시성은 오차가 독립변수에 영향을 주는 것이다.