시계열&계량경제학

계량경제학 #5 내생성 문제 (Endogeneity)

seungbeomdo 2023. 5. 20. 19:17

 

 

1. 외생성: Exogeneity

  • 외생성 조건은 다음과 같다.

E[XtUt]=0

 

외생성의 직관적 의미

  • 외생성 조건은 모형의 독립변수가 외생적이라는 의미이다. 외생적이라는 것은 모형 바깥에서 이미 결정돼 주어진다는 의미이다. 즉 독립변수가 진짜 독립적인가?를 묻는 조건이다.
  • 외생적이지 못한 독립변수는 내생적(Endogeneous)이라고 말한다.

 

  • 외생성의 수식적 표현에서 볼 수 있듯이, 외생성이 존재하면 독립변수와 오차 간의 상관이 존재한다. 이는 독립변수가 오차에 영향을 주고, 혹은 오차가 독립변수에 영향을 주는 관계가 존재한다는 것이다.
  • 독립변수는 우리가 모형 내에서 통제하는 요인이지만, 오차는 우리가 통제하지 못하는 요인이다. 통제되는 요인에 통제되지 않은 요인이 뒤섞여서 종속변수에 영향을 미치는 것이기 때문에, 우리는 무엇이 진짜 독립변수의 영향인지 구별할 수 없게 된다.

2. 추정량의 일관성 (Consistency)

  • 외생성 조건이 지켜지지 않는 경우 OLS 추정량은 모수에 대한 일관성을 갖지 못한다.

 

  • 왜 그런지 간단한 예시를 들어보자. 간단한 1변수 선형회귀 모델이 다음과 같이 주어졌다.

Yt=βXt+Ut

 

  • 우리는 오차항이 독립변수와 상관이 있을 수도 있는 경우를 다루고 있다. 이럴 경우 오차항의 조건부 평균이 0이라는 보장이 없다. 따라서,

E[Yt|Xt]=βXt+E[Ut|Xt]

  • Xt에 대한 조건부 평균은, Xt에 대한 임의의 함수이다. 편의상 그 함수가 선형적이라고 가정하고(일반성의 상실 없이; WLOG), 오차항의 조건부 평균을 다음과 같은 함수로 정의하자.

E[Ut|Xt]=δXt

  • δ가 0이라면 오차항과 Xt가 상관이 없다는 것이다.

 

  • 이때 우리의 조건부 평균 모형은

E[Yt|Xt]=βXt+δXt=(β+δ)Xt

 

  • 우리가 추정하고자 하는 것은 ‘다른 것이 불변이고' Xt가 1단위 증가할 때 Yt의 평균적인 변화이다. 즉, β를 구하려고 하는 것이다.
  • 그런데 실제 데이터에서는 ‘다른 것이 불변인 상태에서’ Xt의 변화만을 관찰하는 것이 불가능하다. 따라서 ‘다른 것이 불변’이라는 조건이 없이 그저 Xt가 변화할 때 Yt의 변화를 관찰하여 베타를 추정한다.
  • 그러므로 Xt가 변화할 때, 오차항이 함께 변화하여 Yt에 미치는 영향(δ)도 반영하게 된다.

 

  • 만약 오차항과 독립변수가 외생적이라면, δ가 제로가 되므로 주어진 데이터에서 독립변수의 순수한 영향력만을 추정할 수 있다.
  • 그렇지 않으면, 추정된 베타는 β를 추정하지 않고 엉뚱한 값(β+δ)을 추정하게 된다. 샘플 수가 아무리 커지더라도 마찬가지이다.

3. 내생성의 원인

  • 내생성의 원인은 크게 2가지이다.

 

1) 변수 누락

  • 첫째는 변수 누락이다. 종속변수에 중요한 영향을 미치면서, 다른 독립변수와 상관을 가지는 어떤 독립변수가 누락되는 것이다. 예시를 들어보자.

 

  • True Model 혹은 Data Generating Process는 다음과 같고, 외생성을 만족한다.

Yt=β1Xt1+β2Xt2+Ut

  • 이때,

E(Xt1Xt2)0,E(Xt1Ut)=0

 

  • 잘못 추정된 Model은 다음과 같다.

Yt=β1Xt1+ϵt

 

  • 이때 오차항은

ϵt=Ytβ1Xt1=β2Xt2+Ut

 

  • 외생성 조건을 확인해보면

E(Xt1ϵt)0

  • 왜냐하면 ϵt에 포함된 Xt2Xt1과 상관되기 때문이다.

 

2) 동시성

  • 둘째는 동시성(Simultaneity)이다. 가격이 판매량에 미치는 영향을 알아본다고 하자.

Qt=βPt+Ut

 

  • 가격 외에 다른 요인에 의해 판매량이 증가했다고 하자. 가령 갑자기 어떤 유행이 발생해서 상품에 대한 수요가 증가한 것이다.
  • 근데 그러면 가격도 증가할 가능성이 높다. 왜냐하면 자기 상품에 대한 유행을 감지한 판매자는, 이윤을 늘리기 위해 가격을 높일 것이기 때문이다.

 

  • 이처럼 독립변수가 오차항과 함께 움직이는 상황에서도 내생성이 존재한다.

 

  • 사실 동시성이나 변수 누락이나 크게 구분할 것은 없어보인다. 차이라고 한다면, 변수 누락은 독립변수가 오차에 영향을 주는 문제이고. 동시성은 오차가 독립변수에 영향을 주는 것이다.