데이터분석&인과추론 5

인과추론 방법론들에 대한 생각: 대체 뭐가 인과관계인지

이게 상관관계냐 아니면 인과관계냐 하는 것은 통계학이나 여러 실증적 사회과학에서 자주 제기되는 상투적인 질문이다. 나는 이 질문을 별로 좋아하지 않는데, 말이 너무 추상적이고 모호해서 그렇다. 도대체 상관관계와 인과관계의 차이를 무엇이라고 엄밀하게 정의할 수 있는가? 그리고 그러한 '엄밀한 정의'를 실증 연구에 적용하기 위한 '실행 가능한 정의'는 무엇인가? 다음에 대해서는 어느 정도 합의가 있는 것 같다(내 피셜). 첫째, 상관관계는 인과관계를 포함한다.즉 두 변수가 인과관계를 가지려면 두 변수 간에는 상관관계가 존재해야 한다. 둘째, 인과관계라는 말에는 시간적 순서성이 내포된다.즉 원인의 변화가 먼저 발생해서, 결과의 변화가 나타난다. 이는 다시 말해 상관관계를 구성하는 두 변수 중 무엇이 원인이고 ..

도구변수(IV) 추정법

내생성 문제(Endogeniety; 독립변수와 오차항의 상관이 존재하는 문제)가 존재할 때 사용할 수 있는 한 가지 방법이 도구변수 추정법이다.  내생성 문제가 있는 상황을 고려해보자. 공부시간 X에 대하여 성적 Y를 회귀시키려고 하는데, 공부시간 X는 학생의 지능과 통계적 상관을 가진다. 학생의 지능을 모형의 변수로 추가하는 것이 불가능하다면, 추정된 OLS 회귀계수 ˆβ는 공부시간의 순수한 인과영향 β뿐 아니라 학생의 지능을 경유한 효과까지 포함한다. 즉 공부시간의 순수한 인과영향을 식별할 수 없다. Yi=α+βXi+ei

E[Xiei]0
$$\hat{\beta} \rightarrow_..

인과추론 방법 = 일관추정량을 구하는 방법

1. 인과추론 = OLS 회귀계수의 일관성을 보장할 수 있느냐공부시간이 성적에 미치는 인과영향을 구하기 위하여,공부시간 X에 대하여 성적 Y를 회귀시키는 방정식을 추정한다고 하자.Yi=α+βXi+ei

where ei?(0,σ2) 이때 OLS 방법으로 추정된 회귀계수 ˆβ가 공부시간의 순수한 인과영향(causal effect)인 β를 나타낸다고 말할 수 있을까? OLS 회귀계수는 샘플로부터 계산된 통계량이기 때문에 불가분한 노이즈들이 들러붙어 있다. 이 노이즈의 영향을 배제할 수 없기 때문에 우리는 섣불리 OLS 회귀계수가 인과영향을 곧바로 나타낸다고 말하지 못한다. 우리는 인과영향을..

MDE (최소 측정 가능 효과)

가설 검정의 기본적인 구조는 다음과 같다. (1) 귀무가설이 참이라고 할 때 검정통계량의 확률분포를 유도한다. 모평균 μ에 대한 귀무가설이 다음과 같다고 하자.H0:μ=μ0

모평균에 대한 검정통계량을 샘플 평균 ˉX라고 하면중심극한정리에 의하여 검정통계량의 확률분포는 귀무가설 하에서 다음과 같다.ˉXAN(μ0,σ2n)
  (2) 관측된 검정통계량이 귀무가설 하에서 등장할 확률이 너무 낮으면 귀무가설이 참이라는 가정을 의심한다(기각한다). "등장할 확률이 너무 낮다"라는 추상적인 조건은 "등장할 확률이 α 미만이다"라고 실행가능하게 정의할 수 있다.이때 α는 유의..

DID (Difference in Difference)

DID 방법 (이중 차분 방법)- 처치집단과 통제집단 간의 차이 중 처치에 의한 효과(인과효과)를 식별하는 방법  카페에 들어가서 커피를 시켰는데, 사장님이 쿠폰을 받겠냐고 물어본다. 도장을 10개 찍으면 아메리카노 한 잔을 공짜로 받는 쿠폰이다.  고객 입장에서는 커피 1잔을 살 때마다 미래의 커피 1/10잔을 더 받게 되는 셈이므로 맛과 가격이 동일하다면 이 카페를 이용하는 것이 이득이 된다. 또한, 쿠폰을 기왕 받은 이상에 이 카페를 여러번 이용해야 이득을 실현할 수 있기 때문에 재방문 의향이 높아진다. 사장님은 이러한 고객의 의사결정 논리를 이해하고 재방문율(retention)을 높이기 위해 쿠폰 정책을 실시한다. 이 정책을 합리화하려면 다음의 AB 테스트가 필요하다.  커피쿠폰을 받지 않은 고객..