회귀분석 10

패널 회귀 분석 #3 고정효과 모형 (Fixed Effect)

고정효과 모형의 가정 패널 회귀모형이 다음과 같이 주어졌다. $$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$ $$U_{i,t} = \mu_{i} + \epsilon_{i,t}$$ $$\epsilon_{i,t} \sim i.i.d. (0, \sigma_{\epsilon}^{2})$$ $$E(\mu_{i} \epsilon_{i,t}) = 0$$ $$E(X_{i,t}\epsilon_{i,t})=0$$ 이때, OLS 추정량이 모수를 일관적으로 추정하려면 $$E(U_{i,t}\mathsf{X}_{i,t}) = 0$$ 이 조건이 성립하기 위해서는 $$E(\mu_{i}\mathsf{X}_{i,t}) = 0$$ $$E(\epsilon_{i,t}\mathsf{X}_{i,t})=0..

패널 회귀 분석 #1 패널 데이터와 Unobserved Heterogeneity

패널 데이터(Panel Data) 복수의 개체를 복수의 시점에서 관측한 데이터를 패널 데이터 횡단면 데이터(Cross-sectional): 복수의 개체를 하나의 시점에서 관측 시계열 데이터(Time-series): 하나의 개체를 복수의 시점에서 관측 패널회귀모델에서 변수는 2가지 차원의 변동이 가능하다. $$Y_{i,t} = \mathsf{X}_{i,t}^{T}\beta + U_{i,t}$$ $i$는 개체를, $t$는 시점을 나타내는 변수 반면 횡단면 혹은 시계열 데이터에서는 다음과 같은 회귀식 $$Y_{i} = \mathsf{X}_{i}^{T}\beta + U_{i}$$ Pooled OLS 패널데이터로 회귀분석을 실시하는 가장 단순한 방법은 패널의 구조를 무시하고 그냥 횡단면 데이터처럼 취급하여 OLS..

계량경제학 #11 비정상 시계열 회귀분석 (2): Stochastic Time Trend

비정상 시계열의 두번째 유형은 Stochastic Time Trend이다. 시간에 대하여 일정한 추세를 가지지 않는 Random Walk 모델이다.1. Random Walk Model Random Walk Model은 다음과 같이 정의한다.$$Y_{t} = Y_{t-1} + U_{t}$$ where $$U_{t} \sim IID \; (0, \sigma_{*}^{2})$$ AR(1) model에서 $\beta$가 1인 경우와 동일하기 때문에, unit root process라고도 부른다. Random walk model을 따르는 경우, 특별히 추정해야 할 모수가 없다. 그냥 랜덤워크 모델이다. 인과검정이나 예측이 불가능한 모델이다.따라서 주요한 관심사는 주어진 process가 랜덤워크를 따르는 것이 맞는..

계량경제학 #10 비정상 시계열 회귀분석 (1): Deterministic Time Trend

비정상 시계열이 가지는 일반적인 특징은 시간에 대한 추세이다. 모든 비정상 시계열이 추세를 가지는 것은 아니지만, 추세를 가지면 비정상 시계열이다. 비정상 시계열이 가지는 추세에는 두 가지 유형이 있다. 하나는 시간에 대하여 추세가 완벽히 예측가능한 Deterministic Trend와, 예측이 불가능한 Stochastic Trend이다. 이번 글에서는 Deterministic Trend가 존재하는 회귀 모델을 다룬다. 1. 모형의 가정 $$Y_{t} = \alpha_{*} + \beta_{*}t + \mathsf{Z}_{t}\gamma_{*} + U_{t}$$ where $\mathsf{Z}_{t}$는 k*1 벡터, $\{{\mathsf{Z}_{t}, U_{t}}\}$는 strictly stationa..

계량경제학 #6 내생성 가정 하에서의 선형회귀 모형 (1): IV, TSLS

모형에 내생성 문제가 존재하는 경우, OLS 추정량은 더이상 모수에 대한 일치추정량이 아니다. 일치성이 지켜지지 않는 문제는 효율성이 지켜지지 않는 문제보다 훨씬 심각하다. 일치성이 지켜지지 않을 경우, 모형을 추정하는 기본적인 목적(인과관계 파악)을 달성할 수 없기 때문이다. 애초에 추정된 회귀계수가 무엇을 추정하는 것인지도 알 수가 없다. 만약 내생성의 원인이 변수 누락에 있다면, 누락된 변수를 모형에 추가하면 된다. 누락된 변수를 구할 수 없다면 적당한 대리변수(proxy)를 사용하면 된다. 그런데 적당한 대리변수조차 찾을 수 없거나, 얼마나 많은 변수들이 누락된 것인지 알 수 없거나, 혹은 동시성의 문제가 존재하는 것이라면 아예 다른 해결방안을 찾아야 한다. 그 방법이 도구변수이다. 1. 도구변수..

계량경제학 #5 내생성 문제 (Endogeneity)

1. 외생성: Exogeneity 외생성 조건은 다음과 같다. $$E[\mathsf{X}_{t}U_{t}] = 0$$ 외생성의 직관적 의미 외생성 조건은 모형의 독립변수가 외생적이라는 의미이다. 외생적이라는 것은 모형 바깥에서 이미 결정돼 주어진다는 의미이다. 즉 독립변수가 진짜 독립적인가?를 묻는 조건이다. 외생적이지 못한 독립변수는 내생적(Endogeneous)이라고 말한다. 외생성의 수식적 표현에서 볼 수 있듯이, 외생성이 존재하면 독립변수와 오차 간의 상관이 존재한다. 이는 독립변수가 오차에 영향을 주고, 혹은 오차가 독립변수에 영향을 주는 관계가 존재한다는 것이다. 독립변수는 우리가 모형 내에서 통제하는 요인이지만, 오차는 우리가 통제하지 못하는 요인이다. 통제되는 요인에 통제되지 않은 요인이 ..

계량경제학 #4 추정량의 효율성이 왜 문제일까

계량경제학 #3 이분산 가정 하에서 OLS: HC 추정량과 FGLS 1. Heteroskedasticity 동분산성(Homoskedasticity)은 오차의 조건부 분산이 상수라는 것을 의미한다. $$E(U_{t}^{2}|\mathsf{X}_{t}) = \sigma_{*}^{2}$$ 독립변수 벡터의 조건부 평균은 독립변수 벡터의 함수이다. 따라 seungbeomdo.tistory.com 이분산 가정 하에서 OLS 추정량은 Consistency를 만족하지만, 더이상 효율적인 추정량은 아니다. 즉 OLS 추정량보다 분산이 작은 추정량이 존재한다. 사실 OLS 추정량을 사용하더라도, 우리가 원하는 베타값에 대한 일치추정량을 구할 수 있다. 샘플 크기가 충분히 크다면 우리가 가지고 있는 추정량이 이미 베타값과 ..

계량경제학 #2 비정규 가정 하에서 OLS 추정량의 성질

CLM 모형의 가정 중 하나는 오차의 조건부 분포가 정규분포라는 것이다.오차의 조건부 분포에 대한 특별한 가정을 할 수 없는 경우에서 OLS 추정량의 성질을 알아본다.1. 모형의 가정기본적으로 CLM의 가정과 동일하지만, 정규성 가정만 제외된다.1) IID: Independently & Identically DistributedIID 가정은 데이터셋을 구성하는 각 벡터 [$Y_{t}$, $X_{t1}$, $X_{t2}$, ..., $X_{tk}$]가 독립적이고 동일한 확률분포를 갖는다는 것이다.2) 선형성: Linearity다음의 식을 성립시키는 $\beta_{*}$가 존재한다.$$E[Y_{t}|\mathsf{X}_{t}] = \mathsf{X}_{t}^{T}\beta_{*}$$3) 가역성: Invert..

Machine Learning #5 클러스터링 : 근로자 임금 분포 클러스터링

1. 클러스터링의 개요 클러스터링(Clustering)이란 샘플 내의 대상들을 일정하게 분류하는 비지도학습 과제를 말한다. 가령 아래와 같은 2차원 변수 공간에 샘플들이 분포하고 있을 때, 샘플들을 각각의 집단으로 묶어내는 작업이다. 위 그림과 같은 상황에서, 직관적으로 세 개의 클러스터로 묶어내고 싶다는 생각이 들 것이다. 그러나 그런 기준들은 연구자의 직관에 의존하고 있어서 임의적이라는 한계를 갖는다. 클러스터링 기법들을 활용하면 임의성의 문제를 극복하고 샘플들을 일관적이고 합리적인 방식으로 묶어낼 수 있다. 나아가서 서로 특성이 다른 샘플들을 서로 다른 클러스터로 분류해 놓은 후에, 각 클러스터들이 어떤 특징을 갖는지 인사이트를 얻어낼 수 있다. 또는 원래 주어진 문제가 회귀 문제였다면, 샘플 전체..

Machine Learning #2 Logistic Regression & SVM : 정규직 여부 분류 모델

GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning Practical Codes for Data Analysis using Machine Learning and Deep Learning - GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning github.com 1. 로짓 회귀분석 1.1. 로짓 회귀분석의 도입 선형회귀모델의 종속변수 $Y$는 대개 연속변수 혹은 수치형변수이다. 하지만 $Y$가 0 아니면 1의 값을 갖도록..