데이터분석&인과추론

인과추론 방법 = 일관추정량을 구하는 방법

seungbeomdo 2024. 6. 30. 16:23

 

1. 인과추론 = OLS 회귀계수의 일관성을 보장할 수 있느냐

공부시간이 성적에 미치는 인과영향을 구하기 위하여,

공부시간 $X$에 대하여 성적 $Y$를 회귀시키는 방정식을 추정한다고 하자.

$$Y_{i} = \alpha + \beta X_{i} + e_{i}$$

where $e_{i} \sim ?(0, \sigma^{2})$

 

이때 OLS 방법으로 추정된 회귀계수 $\hat{\beta}$가 공부시간의 순수한 인과영향(causal effect)인 $\beta$를 나타낸다고 말할 수 있을까? OLS 회귀계수는 샘플로부터 계산된 통계량이기 때문에 불가분한 노이즈들이 들러붙어 있다. 이 노이즈의 영향을 배제할 수 없기 때문에 우리는 섣불리 OLS 회귀계수가 인과영향을 곧바로 나타낸다고 말하지 못한다.

 

우리는 인과영향을 나타내는 모수 $\beta$가 어떤 값인지 모르기 때문에, OLS 회귀계수가 올바르게 그 값을 추정하는지 대답할 길이 없다. 하지만 적어도 OLS 회귀계수가 실제 모수를 향해 정조준되고 있는 값인지에 대해서는 통계학의 힘을 빌려서 검증할 수 있다. 그 정조준된 경로에서 회귀계수가 실제 모수로부터 괴리될 수는 있지만 언젠가는(샘플 사이즈가 충분히 커지면) 회귀계수가 실제 모수를 올바르게 추정한다는 성질이다. 이 성질을 일관성(consistency)라고 부른다.

 

대부분의 맥락에서 인과추론 문제는 통계량의 일관성을 살피는 문제라고 생각한다.

 

인과추론이 항상 회귀분석과 함께 가는 문제라는 것은 아니다. 일관성은 회귀분석뿐 아니라 일반적으로 모수와 추정량 간의 관계를 해석할 때 항상 등장하는 문제이다. 다만 여기서는 회귀분석 모형의 맥락에서 살펴보았다. 그렇지만 대부분의 모형은 결국 회귀분석 문제로 바꿔서 풀 수 있기는 하다.

 

2. OLS 회귀계수의 일관성 조건

$$\hat{\beta} \rightarrow \beta + E[X_{i}e_{i}] * f(X_{i})$$

이때 OLS 회귀계수가 인과영향에 대한 consistent estimator가 되는가는 $E[X_{i}e_{i}] = 0$ 여부에 달려있다.

$E[X_{i}e_{i}]$은 독립변수 $X$와 모델의 오차항 $e$ 간의 통계적 상관을 나타낸다.

 

따라서 독립변수가 오차항과 통계적 상관을 갖지 않는다고 말할 수 있어야, OLS 회귀계수가 공부시간의 순수한 인과영향을 추정한다고 말할 수 있다.

 

이런 수리적인 결론을 직관적으로 이해해보자. 

독립변수의 인과영향에 대한 추정치는 두 개의 항으로 나누어져있다. 하나는 순수한 인과영향인 $\beta$이고 다른 하나는 오차항과의 상관을 반영하는 항 $E[X_{i}e_{i}] * f(X_{i})$이다. 

 

공부시간이 변화하면 성적에 미치는 영향력 채널에는, 그 순수한 인과영향뿐 아니라 오차항을 경유하는 두 번째 채널이 겹쳐있다는 뜻이다. 가령 모델이 측정하지 못한 오차항에 "학생의 지능"이라는 변수가 포함된다고 하자. 그리고 지능이 높은 학생은 공부 시간이 길 확률이 높다고 하자(지능이 높은 학생들은 공부의 효능을 잘 체감하고 있어서 공부를 즐기기 때문이라는 어떤 이론적인 가설 하에서).

 

그럼 학생의 공부시간이 증가할 때 성적에 미치는 영향력은 다음 두 가지로 분해된다.

(1) 공부시간의 순수한 인과영향 $\beta$

(2) 공부시간이 길면, 지능이 높은 학생일 가능성이 크고, 지능이 높은 학생이면 성적이 증가함 $E[X_{i}e_{i}] * f(X_{i})$

 

우리가 가진 OLS 추정량은 (2)가 포함되지 않은 순수한 인과영향만을 나타낸다고 하기 위해서는 $E[X_{i}e_{i}] * f(X_{i}) = 0$이어야 한다. 즉 공부시간과 학생의 지능 간의 통계적 상관이 존재하지 않음을 보여야 한다. 그런데 그게 어려워서 추정량의 일관성을 보장하기가 어렵고, 그래서 인과추론이 어렵다.

 

인과추론 방법이라고 할 때 자주 나오는 도구변수 방법도 결국 독립변수와 오차항 간의 상관이 0이 되는 어떤 특수한 테크닉을 사용하는 것이다.

 

또 자주 나오는 DID 방법도 처치효과 외의 처치집단의 특성이라든가, 시간에 따른 효과라든가를 제거하기 위한 테크닉이다. 처치효과가 1일 때 처치집단의 특성이나 시간에 따른 효과가 발생하기 때문에 처치효과와 오차(처지집단의 특성 또는 시간에 따른 효과) 간의 상관이 0이 되지 않는 문제가 있다. 이를 DID 방법으로 해결한다.