1. Heteroskedasticity
- 동분산성(Homoskedasticity)은 오차의 조건부 분산이 상수라는 것을 의미한다.
$$E(U_{t}^{2}|\mathsf{X}_{t}) = \sigma_{*}^{2}$$
- 독립변수 벡터의 조건부 평균은 독립변수 벡터의 함수이다. 따라서 동분산 가정은 오차의 조건부 분산이 독립변수 값에 따라 변화하지 않는다는 것을 의미한다.
- 만약 오차의 조건부 분산이 독립변수 값에 따라 변화한다면, 이분산성(Heteroskedasticity)이 존재한다고 말한다.
2. 모형의 가정
- 기본적으로 CLM의 가정과 동일하지만, 동분산성 가정만 제외한다.
- Asymptotic Theory의 세계를 다루고 있으므로, 정규성 가정도 불필요하다.
1) IID: Independently & Identically Distributed
- IID 가정은 데이터셋을 구성하는 각 벡터 [$Y_{t}$, $X_{t1}$, $X_{t2}$, ..., $X_{tk}$]가 독립적이고 동일한 확률분포를 갖는다는 것이다.
2) 선형성: Linearity
- 다음의 식을 성립시키는 $\beta_{*}$가 존재한다.
$$E[Y_{t}|\mathsf{X}_{t}] = \mathsf{X}_{t}^{T}\beta_{*}$$
3) 가역성: Invertibility
- 다음의 행렬이 가역이다.
$$\mathsf{X}^{T}\mathsf{X}$$
4) 비특이성: 완전한 다중공선성의 부재
- 독립변수들 간에 선형종속(Linearly dependent) 관계가 존재하지 않는다는 것이다.
5) 외생성: Exogeneity
$$E[\mathsf{X}_{t}U_{t}] = 0$$
3. OLS 추정량의 성질
- 이분산이 존재하는 경우, 여전히 회귀계수의 추정량은 일관적이며, 점근적으로 불편성을 만족한다.
- 다만 오차 조건부 분산의 추정량을 논하는 것은 더이상 의미가 없다.
- 물론 주어진 어떤 독립변수 하에서 오차 조건부 분산을 추정하는 것은 가능하겠지만, 일반적인 연구 질문에서 그렇게까지 디테일하게 추정할 필요는 없다.
1) Consistency
$$\hat{\beta}_{n} \rightarrow ^{a.s.} \beta _{*}$$
2) Asympototic Normality
$$\sqrt{n}(\hat{\beta}_{n} - \beta_{*}) \sim ^{A} N(0, E[\mathsf{X}_{t} \mathsf{X}_{t}^{T}]^{-1}E[U_{t}^{2}\mathsf{X}_{t} \mathsf{X}_{t}^{T}]E[\mathsf{X}_{t} \mathsf{X}_{t}^{T}]^{-1})$$
- OLS 베타의 극한 분포에서 분산항이 동분산 가정 하에서의 그것과 달라졌음을 확인할 수 있다.
- 동분산 가정 하에서 그 값은
$$\sigma^{2}_{*} E[\mathsf{X}_{t} \mathsf{X}_{t}^{T}]^{-1}$$
- 이분산 가정 하의 분산은 동분산 가정 하의 분산의 일반화된 형태임을 알 수 있다. 만약 다음과 같이 동분산성이 성립하면
$$E(U_{t}^{2}|\mathsf{X_{t}}) = \sigma_{*}^{2}$$
- 이분산 가정 하의 분산은 동분산 가정 하의 분산과 동일하다.
$$E[U_{t}^{2}\mathsf{X}_{t} \mathsf{X}_{t}^{T}] = E[E[U_{t}^{2}\mathsf{X}_{t} \mathsf{X}_{t}^{T}]|\mathsf{X}_{t}] = E[E[U_{t}^{2}|\mathsf{X}_{t}]\mathsf{X}_{t} \mathsf{X}_{t}^{T}] = \sigma^{2}_{*} E[\mathsf{X}_{t} \mathsf{X}_{t}^{T}]^{-1}$$
4. OLS 추정량을 활용한 가설 검정
- Asymptotic Normality가 성립하기 때문에, 충분히 큰 규모의 샘플이 주어진 경우에는 여전히 정규분포를 활용한 가설검정이 가능하다.
- 다음의 귀무가설이 참일 때
$$H_{0}: R\beta_{*}=r$$
- Wald 통계량은 점근적으로 카이제곱 분포를 따른다.
$$W_{n} = n[R\hat{\beta}_{n}-r]^{T}[R\hat{C}_{n}R^{T}]^{-1}[R\hat{\beta}_{n}-r] \sim \chi^{2}_{(r)}$$
- 동분산 가정과 유일한 차이는 중간 항의 공분산 행렬 추정량 $\hat{C}_{n}$이 다음과 같이 다르게 정의된다는 점이다.
$$\hat{C}_{n} = (\frac{1}{n}\mathsf{X}^{T}\mathsf{X})^{-1}[\frac{1}{n}\hat{U}_{t}^{2}\mathsf{X}_{t} \mathsf{X}_{t}^{T}](\frac{1}{n}\mathsf{X}^{T}\mathsf{X})^{-1}$$
- 기존의 공분산 행렬 추정량
$$\frac{1}{n}\hat{\sigma}^{2}_{n}(\mathsf{X}^{T}\mathsf{X})^{-1}$$
- 은 이분산 가정 하에서 더이상 일치추정량이 되지 못한다. 정확히 말하자면 추정하려는 공분산 행렬에 대한 추정량이 아니다. 따라서 기존 추정량을 사용해서는 검정통계량의 확률분포를 구할 수 없다.
- $\hat{C}_{n}$은 이분산 가정에 대해서도 견고한 추정량으로서, HC(Heteroskedasticity-Consistent) 추정량이라고 불린다. Heteroskedasticity-Robust 추정량 또는 White’s estimator라고도 불린다.
5. GLS; Generalized Least Squared estimator
- 이분산 가정 하에서 OLS 추정량은 Consistency를 만족하지만, 더이상 효율적인 추정량은 아니다. 즉 OLS 추정량보다 분산이 작은 추정량이 존재한다.
1) GLS
- 이분산 가정 하에서도 BLUE를 얻기 위해서 다음의 방법을 고려할 수 있다. 먼저 모형은
$$Y_{t} = \mathsf{X}_{t}^{T}\beta{*} + U_{t}$$
- 이때 오차항 $U_{t}$의 조건부 분산은 $\mathsf{X}_{t}$의 값에 의존한다.
- 비현실적인 가정이지만, 우리가 오차의 조건부 분산이 $t$마다 달라지는 패턴을 알고 있다고 하자. 가령, t번째 관측값의 오차항의 분산은
$$\sigma_{t}^{2} = \sigma_{*}h_{t}$$
- $h_{t}$는 임의의 알려진 값이다.
- 이런 가정 하에서, 기존의 모형을 수정하자.
$$\frac{Y_{t}}{\sqrt{h_{t}}} = \frac{1}{\sqrt{h_{t}}}\mathsf{X}_{t}^{T}\beta_{*} + \frac{U_{t}}{\sqrt{h_{t}}}$$
- 이때 수정된 오차항의 분산은 상수가 되어 동분산성을 만족함을 알 수 있다.
$$E(\frac{U_{t}^{2}}{h_{t}}|\mathsf{X}_{t}) = \frac{1}{h_{t}}E(U_{t}^{2}|\mathsf{X}_{t})=\frac{1}{h_{t}}\sigma_{t}^{2}=\sigma_{*}^{2}$$
- 따라서 수정된 모형에 대한 OLS 추정량은 CLM 하에서의 OLS 추정량이므로, BLUE이다. 이처럼 모형이 CLM 가정을 만족하도록 수정한 후 OLS를 적용하는 방법을 GLS라고 한다.
2) FGLS
- 그런데 GLS에는 치명적인 문제가 있다. 오차 분산이 독립변수에 의존하는 패턴은 일반적으로 알려져있지 않다는 것이다. 즉 $h_{t}$가 무엇인지 모른다.
- 대안은 FGLS; Feasible GLS이다. FGLS는 오차 분산을 독립변수에 대한 임의의 함수로 두고, 그 함수를 추정한 후 $h_{t}$를 적절하게 분리해내는 방법이다. 추정된 $h_{t}$를 가지고 GLS를 수행하면 된다.
- 다만 이처럼 이분산의 구조를 모형화하는 것이 쉬운 작업이 아니라는 한계가 있다.
'시계열&계량경제학' 카테고리의 다른 글
계량경제학 #5 내생성 문제 (Endogeneity) (0) | 2023.05.20 |
---|---|
계량경제학 #4 추정량의 효율성이 왜 문제일까 (0) | 2023.05.20 |
계량경제학 #2 비정규 가정 하에서 OLS 추정량의 성질 (0) | 2023.05.14 |
계량경제학 #1 고전적 선형회귀 모형 (0) | 2023.05.11 |
DeepAR (0) | 2023.02.24 |