시계열&계량경제학

계량경제학 #1 고전적 선형회귀 모형

seungbeomdo 2023. 5. 11. 16:38

1. 선형회귀 모형의 개요

  • 선형회귀 모형은 종속변수 $Y$를 독립변수 집합 $X_1$, $X_2$, ... , $X_k$의 선형함수로 설명하는 모형이다.

 

  • 일반적으로 주어진 독립변수 집합 하에서 종속변수의 조건부 평균을 구하는 것이 목표이다. 즉 다음의 조건부 평균을 만족시키는 회귀계수 $\beta_*$를 구하는 것이다.

$$E[Y_{t}|\mathsf{X}_{t}] = \beta_{1}X_{t1} + \beta_{2}X_{t2} + ... + \beta_{k}X_{tk} = \mathsf{X}_{t}^{T}\beta_{*}$$

where

$$\mathsf{X}_{t}^{T} = [X_{t1}, X_{t2}, \cdots, X_{tk}]$$

$$\beta_* = [\beta_{1}, \beta_{2}, \cdots, \beta_{k}]^{T}$$

 

  • 실제 $Y$는 독립변수 벡터로 설명된 것과는 다를 수밖에 없다. 그 차이만큼을 오차 $U$로 나타낸다.

$$Y_{t} = \mathsf{X}_{t}^{T}\beta_{*} + U_{t}$$

where 

$$U_{t} = Y_{t} - \mathsf{X}_{t}^{T}\beta_{*} = Y_{t} - E[Y_{t}|\mathsf{X}_{t}]$$

 

  • 즉 독립변수들을 사용해서 $Y$에 대한 조건부 평균을 구하는 것이 실질적인 목표이다. 완벽하게 설명하지 못하고 남은 오차는 그대로 남겨둔다. 

 

 

2. 고전적 선형회귀 모형

  • 고전적 선형회귀 모형(CLM; Classical Linear Model)은 가장 기본적인 형태이다. 
  • IID, 선형성, 가역성, 비특이성, 동분산성, 정규성 그리고 외생성의 7가지 가정을 사용한다. 
  • 이후에 다룰 다른 모형들은 CLM을 구성하는 가정들이 만족되지 않을 때 사용하는 대안적인 모형들이다.

 

 

3. 고전적 선형회귀 모형의 가정

1) IID: Independently & Identically Distributed

  • 가장 기본적인 데이터 가정은 IID 가정이다.
  • IID 가정은 데이터셋을 구성하는 각 벡터 [$Y_{t}$, $X_{t1}$, $X_{t2}$, ..., $X_{tk}$]가 독립적이고 동일한 확률분포를 갖는다는 것이다. 

 

  • 주의해야 할 것: $Y_{t}$와 $X_{ti}$, 혹은 $X_{ti}$와 $X_{tj}$가 IID하다는 의미가 아니다.
  • 임의의 $t$와 $\tau$에 대하여, 두 벡터 [$Y_{t}$, $X_{t1}$, $X_{t2}$, ..., $X_{tk}$]와 [$Y_{\tau}$, $X_{\tau1}$, $X_{\tau2}$, ..., $X_{\tau k}$]가 IID하다는 것이다.

 

2) 선형성: Linearity

  • 두번째 가정은 선형성이다. 
  • 선형성 가정은 종속변수 $Y$의 조건부 평균을 독립변수 벡터의 선형함수로 나타낼 수 있다는 것이다.
  • 즉, 다음의 식을 성립시키는 $\beta_i$들이 존재한다.

 

$$E[Y_{t}|X_{t1}, ..., X_{tk}] = \beta_{1}X_{t1} + \beta_{2}X_{t2} + ... + \beta_{k}X_{tk}$$

 

  • 선형회귀 모형의 맥락에서, 선형성에 대한 일반적인 오해가 있다. 예를 들어 

$$E[Y_{t}|X_{t}] = \beta X_{t}$$

  • 는 선형 모델이지만, 다음의 모델은 선형 모델이 아니라는 것이다.

$$E[Y_{t}|X_{t}] = \beta_{1} X_{t} + \beta_{2} X_{t}^{2}$$

  • 하지만 두 모델은 모두 선형회귀 모형이다. 두번째 모형에서 $Y_{t}$가 $X_{t}$의 제곱항으로 나타나기 때문에 $X_{t}$에 대해서는 선형이 아니다. 하지만 [$X_{t}$, $X_{t}^{2}$]에 대해서는 선형이다.
  • 그리고 선형회귀 모형에서 '선형'이란 독립변수 벡터 자체에 대해 선형이라는 것을 의미한다. 따라서 제곱항이나 세제곱항을 포함한다고 해서 비선형이라고 하지는 않는다.

 

3) 가역성: Invertibility

  • 세번째 가정은 가역성이다.
  • 다음의 행렬이 가역이라는 것을 의미한다.

$$\mathsf{X}^{T}\mathsf{X}$$ 

  • 다른 폰트로 나타낸 $\mathsf{X}$는 독립변수 벡터로 구성된 행렬을 의미한다.

$$\mathsf{X} = \begin{bmatrix} X_{11} X_{12} \cdots X_{1n} \\ X_{21} X_{22} \cdots X_{2n} \\ \vdots \\ X_{k1} X_{k2} \cdots X_{kn} \\ \end{bmatrix}$$

 

  • 이 행렬의 각 행(row)은 몇번째 독립변수인가를 나타낸다. 각 열(column)은 샘플 중 몇번째로 관측된 개체인가를 나타낸다. 즉 행은 변수이고, 열은 개체를 나타낸다.

 

  • 가역성 조건은 다소 수리적인 이유로 필요하다. 선형회귀 모형의 회귀계수를 구할 때, 최소제곱합 회귀계수(OLS)를 사용할 것인데, 회귀계수를 구할 때 위 행렬이 가역이어야 한다.

 

4) 비특이성: 완전한 다중공선성의 부재

  • 비특이성은 완전한 다중공선성(Multicollinearity)의 부재라는 개념으로 더 자주 인용된다.
  • 이는 회귀모형을 구성하는 독립변수들 간에 선형종속(Linearly dependent) 관계가 존재하지 않는다는 것이다.

 

  • 예를 들어 어떤 사람의 학력이 대졸인지 여부에 따라 임금에 미치는 영향을 보고 싶다고 하면 다음과 같은 회귀식을 만들 수 있다.

 

$$Y_{t} = \beta_{0} + \beta_{1}NonUniv_{t} + \beta_{2}Univ_{t} + U_{t}$$

  • 이때, Univ는 대졸 이상이면 1, 대졸 미만이면 0의 값을 갖는 변수이다. NonUniv는 대졸 미만이면 1, 대졸 이상이면 0의 값을 갖는 변수이다.

 

  • 이러한 회귀식은 다중공선성 가정에 위배된다. 왜냐하면 모형에서 사용하는 두 변수 간에는
  • NonUniv + Univ = 1의 선형종속 관계가 존재하기 때문이다.

 

  • 즉 모든 사람은 대졸 미만이거나 대졸 이상이기 때문에, NonUniv 변수와 Univ 변수는 독립적인 변수가 아니다. 두 변수는 독립적인 정보를 담고 있지 못하다.
  • 이런 상황에서는 OLS 추정량이 유일하게 결정되지 않는다. 2원 연립방정식에서 두 방정식이 독립적인 정보를 가지고 있지 못하면 방정식의 해는 유일하지 않은 것과 같은 원리이다. 이 경우 연립방정식이 특이하다(Singular)고 말한다.

 

  • 대졸 여부가 임금에 미치는 영향을 보고 싶으면 회귀식을 다음과 같이 만들어야 한다.

 

$$Y_{t} = \beta_{0} + \beta_{1}Univ_{t} + U_{t}$$

 

  • 위의 변수 설정만으로도, 한 사람이 대졸 미만인지 대졸 이상인지를 가리키기에는 충분하다.
  • 즉 완전한 다중공선성의 문제를 해결하기 위해서는, 공선성을 일으키는 변수들 중 하나를 모형에서 제거하면 된다.

 

5) 정규성과 동분산성

  • 정규성과 동분산성 가정은 모두 오차의 확률분포에 대한 가정이므로 한 번에 설명한다.
  • 2개의 가정이 모두 성립하면, 오차의 조건부 확률분포는 다음과 같다.

$$U_{t}|\mathsf{X}_{t} \sim IID. N(0, \sigma^{2})$$

where $$\mathsf{X}_{t} = [X_{t1}, X_{t2}, \cdots , X_{tk}]^{T}$$

 

  • 오차의 확률분포가 아니라 오차의 조건부 확률분포임에 주목하자. 

 

  • 이때 오차의 조건부 확률분포가 정규분포라는 것이 정규성(Normality)
  • 오차의 조건부 분산이 상수라는 것이 동분산성(Homoskedasticity)

 

  • 오차가 IID 분포를 가진다는 것은 데이터셋의 IID 가정 하에서, 오차의 정의에 의해 성립한다.

$$U_{t}|\mathsf{X}_{t} = (Y_{t} - E[Y_{t}|\mathsf{X}_{t}] |\mathsf{X}_{t})$$

  • 우변을 구성하는 항들은 IID 조건을 만족하는 $[Y_{t}, \mathsf{X}_{t}^T]$의 함수이므로, 당연히 IID를 만족

 

  • 오차의 조건부 평균이 0이라는 것은 오차의 정의에 의해 곧바로 성립한다. 이를 mean independence라고도 부른다.

$$E[U_{t}|\mathsf{X}_{t}] =E[Y_{t} - E[Y_{t}|\mathsf{X}_{t}] |\mathsf{X}_{t}] =E[Y_{t}|\mathsf{X}_{t}] - E[Y_{t}|\mathsf{X}_{t}]  = 0$$

 

6) 외생성: Exogeneity

  • 외생성 조건은 다음과 같다.

$$E[\mathsf{X}_{t}U_{t}] = 0$$

  • 이때 $0$은 스칼라가 아니라 k차원의 벡터이다.

 

  • 외생성 조건은 모형의 독립변수가 외생적이라는 의미이다. 외생적이라는 것은 모형 바깥에서 이미 결정돼 주어진다는 의미이다. 즉 독립변수가 진짜 독립적인가?를 묻는 조건이다.
  • 외생적이지 못한 독립변수는 내생적(Endogeneous)이라고 말한다.

 

  • 외생성의 수식적 표현에서 볼 수 있듯이, 외생성이 존재하면 독립변수와 오차 간의 상관이 존재한다. 이는 오차에 의해서 어느정도는 독립변수가 결정된다는 것이다. 독립변수에 의해서 오차가 어느정도는 결정된다는 것이다.
  • 독립변수는 우리가 모형 내에서 통제하는 요인이지만, 오차는 우리가 통제하지 못하는 요인이다. 두 요인이 서로 뒤섞여서 종속변수에 영향을 미치는 것이기 때문에, 우리는 무엇이 진짜 독립변수의 영향인지 구별할 수 없게 된다.

 

 

4. OLS 추정량의 성질

1) OLS 추정량

  • OLS 추정량은 오차제곱합을 최소화시키는 추정량을 말한다.

$$\hat{\beta}_{n} = (\mathsf{X}^{T}\mathsf{X})^{-1}(\mathsf{X}^{T}\mathsf{Y})$$

$$\hat{\sigma}_{n}^{2} = \frac{1}{n-k}\Sigma_{t=1}^{n}\hat{U}_{t}^{2}$$

2) OLS 추정량의 성질

  • CLM 가정 하에서 OLS 추정량은 BLUE이다.
  • (1) Unbiased

$$E[\hat{\beta}_{n}]=\beta_{*}$$

$$E[\sigma_{n}^{2}]=\sigma_{*}^{2}$$

  • (2) Linear
  • (3) Best (Most Efficient): OLS 추정량의 분산은 임의의 불편추정량의 분산보다 작거나 같다.

 

  • BLUE와 무관하게 또 하나의 유용한 성질
  • (4) Conditional Normality

$$\hat{\beta}_{n}|\mathsf{X} \sim N(\beta_{*},\,\, \sigma_{*}^{2}(\mathsf{X}^{T}\mathsf{X})^{-1})$$

 

5. OLS 추정량을 사용한 가설검정

1) t-test statistics

  • 귀무가설이 하나의 선형제약으로 표현될 때
  • 다음과 같은 귀무가설 하에서

$$H_{0}: \beta_{i*}=c$$

  • t-통계량은

$$t_{n} = \frac{\beta_{in}-c}{\sqrt{\sigma_{n}^{2}(\mathsf{X}^{T}\mathsf{X})^{-1}}} \sim t(n-k)$$

2) F-test statistics

  • 귀무가설이 둘 이상의 선형제약으로 표현될 때
  • 다음과 같은 귀무가설 하에서

$$H_{0}: R\beta_{*}=r$$

  • F-통계량은

$$F_{n} = \frac{W_{n}}{r} \sim F(n-k)$$

$$W_{n} = [R\hat{\beta}_{n}-r]^{T}[\sigma^{2}_{n}R(\mathsf{X}^{T}\mathsf{X})R^{T}]^{-1}[R\hat{\beta}_{n}-r]$$