데이터분석&인과추론

MDE (최소 측정 가능 효과)

seungbeomdo 2024. 6. 29. 20:08

 

가설 검정의 기본적인 구조는 다음과 같다.

 

(1) 귀무가설이 참이라고 할 때 검정통계량의 확률분포를 유도한다.

 

모평균 $\mu$에 대한 귀무가설이 다음과 같다고 하자.

$$H_{0}: \mu = \mu_{0}$$

모평균에 대한 검정통계량을 샘플 평균 $\bar{X}$라고 하면

중심극한정리에 의하여 검정통계량의 확률분포는 귀무가설 하에서 다음과 같다.

$$\bar{X} \sim_{A} N(\mu_{0}, \frac{\sigma^{2}}{n})$$ 

 

(2) 관측된 검정통계량이 귀무가설 하에서 등장할 확률이 너무 낮으면 귀무가설이 참이라는 가정을 의심한다(기각한다).

 

"등장할 확률이 너무 낮다"라는 추상적인 조건은 "등장할 확률이 $\alpha$ 미만이다"라고 실행가능하게 정의할 수 있다.

이때 $\alpha$는 유의수준이라고도 하는데, 절대적인 기준은 없으며 통상 5%로 잡는다.

 

유의수준보다 낮은 등장확률을 가진 검정통계량이 관측되면 귀무가설을 기각한다.

하지만 귀무가설이 참이라는 가정 하에서 이 검정통계량이 관측될 확률이 워낙 낮은 것일 뿐, 0이라는 것은 아니므로 귀무가설을 기각하는 판단은 항상 오류일 가능성을 고려해야 한다.

그 가능성은 사실 유의수준 $\alpha$와 동일하다. 그래서 $\alpha$를 "귀무가설이 참일 때 귀무가설을 기각하는 오류" 또는 "1종 오류"의 확률이라고도 부른다.

 

1. 검정력과 2종 오류

 

한편 "귀무가설이 거짓일 때 귀무가설을 승인하는 오류"도 있다. 이런 오류를 "2종 오류"라고 말한다.

2종 오류가 발생할 확률은 통상 $\beta$로 표기한다.

2종 오류가 발생할 확률을 뒤집으면 "귀무가설이 거짓일 때 귀무가설을 기각하는 확률"이다.

이를 검정력(power)이라고 하며, 검정력은 $1-\beta$로 평가한다. 

 

실제 모평균의 값이 $\mu = \mu_{1}$이라고 하자. 그럼 검정통계량의 분포는 아래와 같다.

$$\bar{X} \sim_{A} N(\mu_{1}, \frac{\sigma^{2}}{n})$$

 

유의수준 $\alpha$가 이미 정해져있다면 2종 오류는 $\mu_{1}$에 의존한다.

$\mu_{1}$이 $\mu_{0}$와 멀리 떨어져있을수록 검정통계량이 $\mu_{0}$과 가깝게 관측될 확률이 작아진다.

그러면 귀무가설 하에서 검정통계량의 관측 확률은 작아지므로 귀무가설을 기각할 가능성이 높아진다.

귀무가설이 거짓일 때 귀무가설을 기각할 확률이 높아지므로 $\beta$가 작아지고 검정력은 증가한다.

 

https://playinpap.github.io/abtest-setting-mde/

 

2. MDE

 

검정력이 $\mu_{1}$에 의존하는 관계를 뒤집으면, $\mu_{1}$이 검정력에 의존하는 함수 관계를 얻을 수 있다. 다시 말해 우리가 원하는 검정력의 수준을 정하면, 그러한 검정력을 만족하는 테스트가 되기 위해서 $\mu_{1}$이 $\mu_{0}$와 멀리 떨어져야 할 것인가가 얻어진다. 만약 $\mu_1$이 그리 멀리 떨어져 있지 않다면 원하는 수준의 검정력을 가질 수가 없다.

 

주어진 검정력 하에서 $\mu_{1}$과 $\mu_{0}$의 거리가 가져야 할 최소 크기를 MDE(Minimum Detectable Effect)라고 한다.

 

 

3. MDE의 결정

 

MDE를 줄이는 것은 작은 모평균 차이에 대해서도 검정력이 높은 테스트를 만든다는 의미이다. 작은 모평균 차이도 잡아낼 수 있는 테스트를 만들려면, 작은 모평균 차이 하에서도 귀무가설 분포와 실제 분포 간의 거리가 커지도록 해야 한다.

 

이 문제에서 모평균은 주어진 것이므로, 우리가 바꿀 수 있는 것은 분포의 분산 $\frac{\sigma^{2}}{n}$이다. 분산 파라미터 $\sigma$가 주어져있다면 샘플 사이즈 $n$을 늘려서 분포의 분산을 줄일 수가 있다.

그러면 동일한 모평균 하에서 귀무가설 분포와 실제 분포가 좁아지므로, 두 분포가 겹치는 영역의 확률을 줄일 수 있다.

 

MDE를 작게 만들기 위해서는(더 민감한 테스트를 만들기 위해서는) 샘플 사이즈를 충분히 키워야 한다.

 

그런데 샘플 사이즈를 키우는 것 자체에도 비용이 발생한다. 여론조사업체의 입장에서는 더 많은 사람들을 설문해야 한다는 의미이고, IT스타트업의 입장에서는 더 오랜 시간 동안 로그 데이터를 수집해야 한다는 의미이다.

 

서비스 정책 변경으로 발생하는 KPI의 변화 규모가 있을 것이다. 서비스 정책 변경으로 발생하는 변화 규모가 MDE 이상이어야, 우리가 설계한 AB 테스트가 충분한 검정력으로 정책 변경 효과를 탐지할 수 있다. 

 

얼마나 작은 효과까지 탐지해내기를 원할까? 아주 작은 MDE를 잡는다면 이를 만족하기 위해 모아야 할 유저 데이터가 너무 많아질 것이다.

가설 검정을 통해 액션 플랜을 합리화해 얻어낼 수 있는 이득보다 가설 검정의 실행 비용이 더 클 수도 있다. 

그런 의미에서 적정한 MDE를 잡는 것은 결국 비즈니스적인 의사결정의 문제이다.