전체 글 106

데이터 분석으로 "진짜로" "생존"하기 #1

어찌어찌 하고 싶었던 일로 일자리는 구했다.석사 마치고 계약직을 전전하면서 내가 뭘 하고 싶은지 고민하다가웹서비스 개발 회사의 데이터 분석가로 입직을 했다. 하지만 그 다음 단계가 기다리고 있었는데, 그것은 바로 독립이다.좋아! 경제적으로 독자적으로 생존하기 위한 데이터 분석을 해보기로 했다. 무슨무슨 직무 취업하기, 스킬업하기 이런 걸 위한 데이터 분석이 아니라 (나는 이런 걸 강의팔이용 데이터 분석이라고 부른다.   데이터 분석이란 문제를 해결하려는 구체적인 프로젝트로서 존재하는 것이다.)내 집 마련을 위한 재테크 전략부터 "data-driven"하게 유도해보기로 했다.  위 그래프는 2014년 9월부터 2024년 7월까지 대략 10년 간의 자산 가격 시계열을 월간으로 찍은 것이다. 파란색은 서울 아..

인과추론 방법론들에 대한 생각: 대체 뭐가 인과관계인지

이게 상관관계냐 아니면 인과관계냐 하는 것은 통계학이나 여러 실증적 사회과학에서 자주 제기되는 상투적인 질문이다. 나는 이 질문을 별로 좋아하지 않는데, 말이 너무 추상적이고 모호해서 그렇다. 도대체 상관관계와 인과관계의 차이를 무엇이라고 엄밀하게 정의할 수 있는가? 그리고 그러한 '엄밀한 정의'를 실증 연구에 적용하기 위한 '실행 가능한 정의'는 무엇인가? 다음에 대해서는 어느 정도 합의가 있는 것 같다(내 피셜). 첫째, 상관관계는 인과관계를 포함한다.즉 두 변수가 인과관계를 가지려면 두 변수 간에는 상관관계가 존재해야 한다. 둘째, 인과관계라는 말에는 시간적 순서성이 내포된다.즉 원인의 변화가 먼저 발생해서, 결과의 변화가 나타난다. 이는 다시 말해 상관관계를 구성하는 두 변수 중 무엇이 원인이고 ..

도구변수(IV) 추정법

내생성 문제(Endogeniety; 독립변수와 오차항의 상관이 존재하는 문제)가 존재할 때 사용할 수 있는 한 가지 방법이 도구변수 추정법이다.  내생성 문제가 있는 상황을 고려해보자. 공부시간 $X$에 대하여 성적 $Y$를 회귀시키려고 하는데, 공부시간 $X$는 학생의 지능과 통계적 상관을 가진다. 학생의 지능을 모형의 변수로 추가하는 것이 불가능하다면, 추정된 OLS 회귀계수 $\hat{\beta}$는 공부시간의 순수한 인과영향 $\beta$뿐 아니라 학생의 지능을 경유한 효과까지 포함한다. 즉 공부시간의 순수한 인과영향을 식별할 수 없다. $$Y_{i} = \alpha + \beta X_{i} + e_{i}$$$$E[X_{i}e_{i}] \neq 0$$$$\hat{\beta} \rightarrow_..

인과추론 방법 = 일관추정량을 구하는 방법

1. 인과추론 = OLS 회귀계수의 일관성을 보장할 수 있느냐공부시간이 성적에 미치는 인과영향을 구하기 위하여,공부시간 $X$에 대하여 성적 $Y$를 회귀시키는 방정식을 추정한다고 하자.$$Y_{i} = \alpha + \beta X_{i} + e_{i}$$where $e_{i} \sim ?(0, \sigma^{2})$ 이때 OLS 방법으로 추정된 회귀계수 $\hat{\beta}$가 공부시간의 순수한 인과영향(causal effect)인 $\beta$를 나타낸다고 말할 수 있을까? OLS 회귀계수는 샘플로부터 계산된 통계량이기 때문에 불가분한 노이즈들이 들러붙어 있다. 이 노이즈의 영향을 배제할 수 없기 때문에 우리는 섣불리 OLS 회귀계수가 인과영향을 곧바로 나타낸다고 말하지 못한다. 우리는 인과영향을..

MDE (최소 측정 가능 효과)

가설 검정의 기본적인 구조는 다음과 같다. (1) 귀무가설이 참이라고 할 때 검정통계량의 확률분포를 유도한다. 모평균 $\mu$에 대한 귀무가설이 다음과 같다고 하자.$$H_{0}: \mu = \mu_{0}$$모평균에 대한 검정통계량을 샘플 평균 $\bar{X}$라고 하면중심극한정리에 의하여 검정통계량의 확률분포는 귀무가설 하에서 다음과 같다.$$\bar{X} \sim_{A} N(\mu_{0}, \frac{\sigma^{2}}{n})$$  (2) 관측된 검정통계량이 귀무가설 하에서 등장할 확률이 너무 낮으면 귀무가설이 참이라는 가정을 의심한다(기각한다). "등장할 확률이 너무 낮다"라는 추상적인 조건은 "등장할 확률이 $\alpha$ 미만이다"라고 실행가능하게 정의할 수 있다.이때 $\alpha$는 유의..

F1-score와 AUC는 왜 필요한데?

이전 글에서 지속 Confusion matrix란 (tistory.com) Confusion matrix란1. Confustion Matrix 이진 예측(분류 예측) 모델을 평가하는 대표적인 지표는 Confusion matrix이다. 주어진 데이터포인트를 양성(1) 또는 음성(0)으로 분류하는 문제에서, 데이터포인트의 실제 레이블과 seungbeomdo.tistory.com 4. F1-score: 최적의 양성 판단 비율을 찾기 레퍼런스에서는 F1-score라는 개념도 자주 나온다. F1-score는 정밀도와 재현율의 조화평균이다. $$F1 = 2 \times \frac{Prec \times Rec}{Prec + Rec}$$ 정밀도와 재현율 간에는 상충 관계가 존재한다. 그래서 F1-score를 사용해서 ..

Confusion matrix란

1. Confustion Matrix 이진 예측(분류 예측) 모델을 평가하는 대표적인 지표는 Confusion matrix이다. 주어진 데이터포인트를 양성(1) 또는 음성(0)으로 분류하는 문제에서, 데이터포인트의 실제 레이블과 예측된 레이블을 비교하는 행렬이다. 가로축은 실제 레이블을 나타내며, 세로축은 예측된 레이블을 나타낸다. 즉 - (1,1) 성분은 실제로 양성이고, 모델도 양성이라고 예측한 데이터포인트의 개수 TP (True Positive) - (1,2) 성분은 실제로는 음성이지만, 모델은 양성이라고 예측한 데이터포인트의 개수 FP (False Positive) - (2,1) 성분은 실제로 양성이지만, 모델은 음성이라고 예측한 데이터포인트의 개수 FN (False Negative) - (2,2..

SQL - 프로그래머스 문제 몇 가지 기록

프로그래머스 SQL 문제 다 풀었다. 다 푼 기념으로 푸는 데 오래 걸린 몇 가지 문제를 정리한다. 1. SELF JOIN + CASE문 사용법 1) 문제 분석 주어진 테이블은 렌트 회사의 자동차 대여 기록 테이블이다. 특정한 날짜에 대여가 가능한 자동차를 찾아야 한다. 보통은 자동차 정보 테이블 따로, 대여 기록 테이블이 따로 있는데, 그럴 경우에는 그냥 JOIN을 사용하면 쉽다. 자동차 정보 테이블과 대여 기록 테이블을 자동차 ID를 기준으로 LEFT JOIN한 다음, WHERE 절에서 날짜 조건을 걸어주면 된다. 하지만 이 경우에는 대여 기록 테이블만 던져주고 풀라고해서, SELF JOIN으로 접근해야 한다. 그리고 특정 조건 충족 여부에 따라 값이 달라지는 칼럼을 새로 만들 것을 요구하므로, CA..

금리 모델링 #4 short rate modeling

금리 파생상품이란 금리를 기초자산으로 하여 수익이 결정되는 파생상품을 말한다. 대부분 금융공학 교과서들을 보면 금리 파생상품을 설명할 때 다른 기초자산들보다 특별히 더 많은 분량을 할애하는 것을 알 수 있다. 그 이유는 크게 두 가지인데, 1) 금리의 확률과정은 더 복잡하다. 금리는 매크로 변수로서의 성격이 있기 때문에, 단지 기하적 브라운 운동만으로 나타내기 힘들다. 예를 들어 주가는 계속 상승할 수 있지만, 금리는 계속 상승하지 않고 일정 수준이 되면 다시 내려온다. 이를 mean-reverting이라고 한다. 2) 금리는 주가처럼 하나의 값이 아니라, 수익률 '곡선'으로서 존재한다. 기간 구조를 무시한 상태에서 그냥 "금리"라는 것은 존재하지 않는다. 따라서 금리를 추정할 때는 금리 커브 자체를 추..

금리 모델링 #3 스왑션(Swaption)

금리 파생상품이란 금리를 기초자산으로 하여 수익이 결정되는 파생상품을 말한다. 대부분 금융공학 교과서들을 보면 금리 파생상품을 설명할 때 다른 기초자산들보다 특별히 더 많은 분량을 할애하는 것을 알 수 있다. 그 이유는 크게 두 가지인데, 1) 금리의 확률과정은 더 복잡하다. 금리는 매크로 변수로서의 성격이 있기 때문에, 단지 기하적 브라운 운동만으로 나타내기 힘들다. 예를 들어 주가는 계속 상승할 수 있지만, 금리는 계속 상승하지 않고 일정 수준이 되면 다시 내려온다. 이를 mean-reverting이라고 한다. 2) 금리는 주가처럼 하나의 값이 아니라, 수익률 '곡선'으로서 존재한다. 기간 구조를 무시한 상태에서 그냥 "금리"라는 것은 존재하지 않는다. 따라서 금리를 추정할 때는 금리 커브 자체를 추..