데이터분석&인과추론

도구변수(IV) 추정법

seungbeomdo 2024. 7. 20. 17:39

내생성 문제(Endogeniety; 독립변수와 오차항의 상관이 존재하는 문제)가 존재할 때 사용할 수 있는 한 가지 방법이 도구변수 추정법이다. 

 

내생성 문제가 있는 상황을 고려해보자. 공부시간 $X$에 대하여 성적 $Y$를 회귀시키려고 하는데, 공부시간 $X$는 학생의 지능과 통계적 상관을 가진다. 학생의 지능을 모형의 변수로 추가하는 것이 불가능하다면, 추정된 OLS 회귀계수 $\hat{\beta}$는 공부시간의 순수한 인과영향 $\beta$뿐 아니라 학생의 지능을 경유한 효과까지 포함한다. 즉 공부시간의 순수한 인과영향을 식별할 수 없다.

 

$$Y_{i} = \alpha + \beta X_{i} + e_{i}$$

$$E[X_{i}e_{i}] \neq 0$$

$$\hat{\beta} \rightarrow_{p} \beta + f(X)*E[X_{i}e_{i}] \neq \beta$$

 

이때 $f(X)*E[X_{i}e_{i}]$가 오차항을 경유한 독립변수의 영향력, 우리 맥락에서는 학생의 지능을 경유한 효과이다. 이 녀석 때문에 순수한 영향력인 $\beta$가 식별되지 못한다.

 

이 문제를 해결하기 위해서 도구변수라는 새로운 변수를 도입한다. 도구변수란 다음의 두 가지 성질을 만족하는 특수한 변수를 의미한다.

(1) 도구변수 $Z$는 독립변수 $X$와 통계적 상관을 갖는다.

(2) 도구변수 $Z$는 모형의 오차항 $e$와 통계적 상관을 갖지 않는다.

 

도구변수 추정법은 다음과 같다. 먼저 도구변수에 대하여 독립변수를 회귀시킨다.

$$X_{i} = \gamma + \delta Z_{i} + w_{i}$$

도구변수 회귀식으로 추정한 독립변수 $X$를 $\tilde{X}$라고 하자. 즉

$$\tilde{X}_{i} = \gamma + \delta Z_{i}$$

그리고 이 추정된 독립변수 $X$에 대하여 $Y$를 회귀시키는 새로운 방정식을 추정한다.

$$Y_{i} = \tilde{\alpha} + \beta\tilde{X}_{i} + \tilde{e}_{i}$$

 

새롭게 얻은 추정량 $\tilde{\beta}$는 순수한 인과효과인 $\beta$에 대한 일관추정량이 된다.

$$\tilde{\beta} \rightarrow \beta + E[\tilde{X}_{i} \tilde{e}_{i}] * f(\tilde{X}_{i}) = \beta$$

왜냐하면 $\tilde{X}_{i}$는 $Z_{i}$의 함수이며, $Z_{i}$는 $e_{i}$와 상관을 갖지 않는 변수라서

$E[\tilde{X}_{i} \tilde{e}_{i}] = E[g(Z_{i}) \tilde{e}_{i}] = 0$이기 때문이다.

 

왜 이런 결과가 나올까? 우리가 추정한 2개의 회귀식을 연계시키면 다음과 같이 이해할 수 있다.

"도구변수 $Z$를 변화시켜서 발생한 $X$의 변화로 발생한 $Y$의 변화를 추정한다."

 

이때 도구변수의 변화는

$X$의 변화는 발생시키지만 $\leftarrow$ 도구변수 조건 (1)

$Y$의 변화를 직접 발생시키지는 않는다. $\leftarrow$ 도구변수 조건 (2)

따라서 이 경우의 독립변수 $X$가 $Y$를 변화시킨 효과는 오차항의 변화를 동반하지 않는다고 말할 수 있다.

 

예시를 들어서 이해해보자.

공부시간-성적 회귀식에서 문제는 공부시간과 학생의 지능 간의 통계적 상관이 존재하는 데 있었다.

공부시간이 더 길다는 것은 그 학생이 더 똑똑하다는 것을 의미하기 때문에 

공부시간의 증가로 발생하는 성적 증가는 학생의 지능 효과를 항상 동반하고 있었다.

 

그런데 만약 학교에서 강제 야간자율학습이 시행되었다고 가정하자(요즘도 이런 게 있는지는 모르겠다). 그래서 공부를 잘하는 애들이나 못하는 애들이나 억지로 공부시간이 길어지게 되었다. 

 

"야간자율학습 시행"이라는 변화로 인해 발생한 "공부시간의 증가"는 "학생의 지능 효과"를 동반하지 않는다. 야자 때문에 공부 시간이 늘어나는 것은 똑똑한 학생인지 아닌지와 무관하기 때문이다. 따라서 이 경우에 "공부시간의 증가"가 얻어낸 "성적 증가"는 "학생의 지능 효과"를 배제한 순수한 영향력이라고 말할 수 있다.

 

이때 "야간자율학습 시행 여부"라는 변수가 도구변수, "공부시간"이 독립변수, "학생의 지능 효과"가 오차, "성적"이 종속변수이다. 이런 방식의 실험 설계를 통해 독립변수의 순수한 영향력을 파악하려는 방법론을 도구변수 방법이라고 부른다.