데이터분석&인과추론 5

인과추론 방법론들에 대한 생각: 대체 뭐가 인과관계인지

이게 상관관계냐 아니면 인과관계냐 하는 것은 통계학이나 여러 실증적 사회과학에서 자주 제기되는 상투적인 질문이다. 나는 이 질문을 별로 좋아하지 않는데, 말이 너무 추상적이고 모호해서 그렇다. 도대체 상관관계와 인과관계의 차이를 무엇이라고 엄밀하게 정의할 수 있는가? 그리고 그러한 '엄밀한 정의'를 실증 연구에 적용하기 위한 '실행 가능한 정의'는 무엇인가? 다음에 대해서는 어느 정도 합의가 있는 것 같다(내 피셜). 첫째, 상관관계는 인과관계를 포함한다.즉 두 변수가 인과관계를 가지려면 두 변수 간에는 상관관계가 존재해야 한다. 둘째, 인과관계라는 말에는 시간적 순서성이 내포된다.즉 원인의 변화가 먼저 발생해서, 결과의 변화가 나타난다. 이는 다시 말해 상관관계를 구성하는 두 변수 중 무엇이 원인이고 ..

도구변수(IV) 추정법

내생성 문제(Endogeniety; 독립변수와 오차항의 상관이 존재하는 문제)가 존재할 때 사용할 수 있는 한 가지 방법이 도구변수 추정법이다.  내생성 문제가 있는 상황을 고려해보자. 공부시간 $X$에 대하여 성적 $Y$를 회귀시키려고 하는데, 공부시간 $X$는 학생의 지능과 통계적 상관을 가진다. 학생의 지능을 모형의 변수로 추가하는 것이 불가능하다면, 추정된 OLS 회귀계수 $\hat{\beta}$는 공부시간의 순수한 인과영향 $\beta$뿐 아니라 학생의 지능을 경유한 효과까지 포함한다. 즉 공부시간의 순수한 인과영향을 식별할 수 없다. $$Y_{i} = \alpha + \beta X_{i} + e_{i}$$$$E[X_{i}e_{i}] \neq 0$$$$\hat{\beta} \rightarrow_..

인과추론 방법 = 일관추정량을 구하는 방법

1. 인과추론 = OLS 회귀계수의 일관성을 보장할 수 있느냐공부시간이 성적에 미치는 인과영향을 구하기 위하여,공부시간 $X$에 대하여 성적 $Y$를 회귀시키는 방정식을 추정한다고 하자.$$Y_{i} = \alpha + \beta X_{i} + e_{i}$$where $e_{i} \sim ?(0, \sigma^{2})$ 이때 OLS 방법으로 추정된 회귀계수 $\hat{\beta}$가 공부시간의 순수한 인과영향(causal effect)인 $\beta$를 나타낸다고 말할 수 있을까? OLS 회귀계수는 샘플로부터 계산된 통계량이기 때문에 불가분한 노이즈들이 들러붙어 있다. 이 노이즈의 영향을 배제할 수 없기 때문에 우리는 섣불리 OLS 회귀계수가 인과영향을 곧바로 나타낸다고 말하지 못한다. 우리는 인과영향을..

MDE (최소 측정 가능 효과)

가설 검정의 기본적인 구조는 다음과 같다. (1) 귀무가설이 참이라고 할 때 검정통계량의 확률분포를 유도한다. 모평균 $\mu$에 대한 귀무가설이 다음과 같다고 하자.$$H_{0}: \mu = \mu_{0}$$모평균에 대한 검정통계량을 샘플 평균 $\bar{X}$라고 하면중심극한정리에 의하여 검정통계량의 확률분포는 귀무가설 하에서 다음과 같다.$$\bar{X} \sim_{A} N(\mu_{0}, \frac{\sigma^{2}}{n})$$  (2) 관측된 검정통계량이 귀무가설 하에서 등장할 확률이 너무 낮으면 귀무가설이 참이라는 가정을 의심한다(기각한다). "등장할 확률이 너무 낮다"라는 추상적인 조건은 "등장할 확률이 $\alpha$ 미만이다"라고 실행가능하게 정의할 수 있다.이때 $\alpha$는 유의..

DID (Difference in Difference)

DID 방법 (이중 차분 방법)- 처치집단과 통제집단 간의 차이 중 처치에 의한 효과(인과효과)를 식별하는 방법  카페에 들어가서 커피를 시켰는데, 사장님이 쿠폰을 받겠냐고 물어본다. 도장을 10개 찍으면 아메리카노 한 잔을 공짜로 받는 쿠폰이다.  고객 입장에서는 커피 1잔을 살 때마다 미래의 커피 1/10잔을 더 받게 되는 셈이므로 맛과 가격이 동일하다면 이 카페를 이용하는 것이 이득이 된다. 또한, 쿠폰을 기왕 받은 이상에 이 카페를 여러번 이용해야 이득을 실현할 수 있기 때문에 재방문 의향이 높아진다. 사장님은 이러한 고객의 의사결정 논리를 이해하고 재방문율(retention)을 높이기 위해 쿠폰 정책을 실시한다. 이 정책을 합리화하려면 다음의 AB 테스트가 필요하다.  커피쿠폰을 받지 않은 고객..