Processing math: 100%

시계열&계량경제학

계량경제학 #1 고전적 선형회귀 모형

seungbeomdo 2023. 5. 11. 16:38

1. 선형회귀 모형의 개요

  • 선형회귀 모형은 종속변수 Y를 독립변수 집합 X1, X2, ... , Xk의 선형함수로 설명하는 모형이다.

 

  • 일반적으로 주어진 독립변수 집합 하에서 종속변수의 조건부 평균을 구하는 것이 목표이다. 즉 다음의 조건부 평균을 만족시키는 회귀계수 β를 구하는 것이다.

E[Yt|Xt]=β1Xt1+β2Xt2+...+βkXtk=XtTβ

where

XtT=[Xt1,Xt2,,Xtk]

β=[β1,β2,,βk]T

 

  • 실제 Y는 독립변수 벡터로 설명된 것과는 다를 수밖에 없다. 그 차이만큼을 오차 U로 나타낸다.

Yt=XtTβ+Ut

where 

Ut=YtXtTβ=YtE[Yt|Xt]

 

  • 즉 독립변수들을 사용해서 Y에 대한 조건부 평균을 구하는 것이 실질적인 목표이다. 완벽하게 설명하지 못하고 남은 오차는 그대로 남겨둔다. 

 

 

2. 고전적 선형회귀 모형

  • 고전적 선형회귀 모형(CLM; Classical Linear Model)은 가장 기본적인 형태이다. 
  • IID, 선형성, 가역성, 비특이성, 동분산성, 정규성 그리고 외생성의 7가지 가정을 사용한다. 
  • 이후에 다룰 다른 모형들은 CLM을 구성하는 가정들이 만족되지 않을 때 사용하는 대안적인 모형들이다.

 

 

3. 고전적 선형회귀 모형의 가정

1) IID: Independently & Identically Distributed

  • 가장 기본적인 데이터 가정은 IID 가정이다.
  • IID 가정은 데이터셋을 구성하는 각 벡터 [Yt, Xt1, Xt2, ..., Xtk]가 독립적이고 동일한 확률분포를 갖는다는 것이다. 

 

  • 주의해야 할 것: YtXti, 혹은 XtiXtj가 IID하다는 의미가 아니다.
  • 임의의 tτ에 대하여, 두 벡터 [Yt, Xt1, Xt2, ..., Xtk]와 [Yτ, Xτ1, Xτ2, ..., Xτk]가 IID하다는 것이다.

 

2) 선형성: Linearity

  • 두번째 가정은 선형성이다. 
  • 선형성 가정은 종속변수 Y의 조건부 평균을 독립변수 벡터의 선형함수로 나타낼 수 있다는 것이다.
  • 즉, 다음의 식을 성립시키는 βi들이 존재한다.

 

E[Yt|Xt1,...,Xtk]=β1Xt1+β2Xt2+...+βkXtk

 

  • 선형회귀 모형의 맥락에서, 선형성에 대한 일반적인 오해가 있다. 예를 들어 

E[Yt|Xt]=βXt

  • 는 선형 모델이지만, 다음의 모델은 선형 모델이 아니라는 것이다.

E[Yt|Xt]=β1Xt+β2Xt2

  • 하지만 두 모델은 모두 선형회귀 모형이다. 두번째 모형에서 YtXt의 제곱항으로 나타나기 때문에 Xt에 대해서는 선형이 아니다. 하지만 [Xt, X2t]에 대해서는 선형이다.
  • 그리고 선형회귀 모형에서 '선형'이란 독립변수 벡터 자체에 대해 선형이라는 것을 의미한다. 따라서 제곱항이나 세제곱항을 포함한다고 해서 비선형이라고 하지는 않는다.

 

3) 가역성: Invertibility

  • 세번째 가정은 가역성이다.
  • 다음의 행렬이 가역이라는 것을 의미한다.

XTX 

  • 다른 폰트로 나타낸 X는 독립변수 벡터로 구성된 행렬을 의미한다.

X=[X11X12X1nX21X22X2nXk1Xk2Xkn]

 

  • 이 행렬의 각 행(row)은 몇번째 독립변수인가를 나타낸다. 각 열(column)은 샘플 중 몇번째로 관측된 개체인가를 나타낸다. 즉 행은 변수이고, 열은 개체를 나타낸다.

 

  • 가역성 조건은 다소 수리적인 이유로 필요하다. 선형회귀 모형의 회귀계수를 구할 때, 최소제곱합 회귀계수(OLS)를 사용할 것인데, 회귀계수를 구할 때 위 행렬이 가역이어야 한다.

 

4) 비특이성: 완전한 다중공선성의 부재

  • 비특이성은 완전한 다중공선성(Multicollinearity)의 부재라는 개념으로 더 자주 인용된다.
  • 이는 회귀모형을 구성하는 독립변수들 간에 선형종속(Linearly dependent) 관계가 존재하지 않는다는 것이다.

 

  • 예를 들어 어떤 사람의 학력이 대졸인지 여부에 따라 임금에 미치는 영향을 보고 싶다고 하면 다음과 같은 회귀식을 만들 수 있다.

 

Yt=β0+β1NonUnivt+β2Univt+Ut

  • 이때, Univ는 대졸 이상이면 1, 대졸 미만이면 0의 값을 갖는 변수이다. NonUniv는 대졸 미만이면 1, 대졸 이상이면 0의 값을 갖는 변수이다.

 

  • 이러한 회귀식은 다중공선성 가정에 위배된다. 왜냐하면 모형에서 사용하는 두 변수 간에는
  • NonUniv + Univ = 1의 선형종속 관계가 존재하기 때문이다.

 

  • 즉 모든 사람은 대졸 미만이거나 대졸 이상이기 때문에, NonUniv 변수와 Univ 변수는 독립적인 변수가 아니다. 두 변수는 독립적인 정보를 담고 있지 못하다.
  • 이런 상황에서는 OLS 추정량이 유일하게 결정되지 않는다. 2원 연립방정식에서 두 방정식이 독립적인 정보를 가지고 있지 못하면 방정식의 해는 유일하지 않은 것과 같은 원리이다. 이 경우 연립방정식이 특이하다(Singular)고 말한다.

 

  • 대졸 여부가 임금에 미치는 영향을 보고 싶으면 회귀식을 다음과 같이 만들어야 한다.

 

Yt=β0+β1Univt+Ut

 

  • 위의 변수 설정만으로도, 한 사람이 대졸 미만인지 대졸 이상인지를 가리키기에는 충분하다.
  • 즉 완전한 다중공선성의 문제를 해결하기 위해서는, 공선성을 일으키는 변수들 중 하나를 모형에서 제거하면 된다.

 

5) 정규성과 동분산성

  • 정규성과 동분산성 가정은 모두 오차의 확률분포에 대한 가정이므로 한 번에 설명한다.
  • 2개의 가정이 모두 성립하면, 오차의 조건부 확률분포는 다음과 같다.

Ut|XtIID.N(0,σ2)

where Xt=[Xt1,Xt2,,Xtk]T

 

  • 오차의 확률분포가 아니라 오차의 조건부 확률분포임에 주목하자. 

 

  • 이때 오차의 조건부 확률분포가 정규분포라는 것이 정규성(Normality)
  • 오차의 조건부 분산이 상수라는 것이 동분산성(Homoskedasticity)

 

  • 오차가 IID 분포를 가진다는 것은 데이터셋의 IID 가정 하에서, 오차의 정의에 의해 성립한다.

Ut|Xt=(YtE[Yt|Xt]|Xt)

  • 우변을 구성하는 항들은 IID 조건을 만족하는 [Yt,XTt]의 함수이므로, 당연히 IID를 만족

 

  • 오차의 조건부 평균이 0이라는 것은 오차의 정의에 의해 곧바로 성립한다. 이를 mean independence라고도 부른다.

E[Ut|Xt]=E[YtE[Yt|Xt]|Xt]=E[Yt|Xt]E[Yt|Xt]=0

 

6) 외생성: Exogeneity

  • 외생성 조건은 다음과 같다.

E[XtUt]=0

  • 이때 0은 스칼라가 아니라 k차원의 벡터이다.

 

  • 외생성 조건은 모형의 독립변수가 외생적이라는 의미이다. 외생적이라는 것은 모형 바깥에서 이미 결정돼 주어진다는 의미이다. 즉 독립변수가 진짜 독립적인가?를 묻는 조건이다.
  • 외생적이지 못한 독립변수는 내생적(Endogeneous)이라고 말한다.

 

  • 외생성의 수식적 표현에서 볼 수 있듯이, 외생성이 존재하면 독립변수와 오차 간의 상관이 존재한다. 이는 오차에 의해서 어느정도는 독립변수가 결정된다는 것이다. 독립변수에 의해서 오차가 어느정도는 결정된다는 것이다.
  • 독립변수는 우리가 모형 내에서 통제하는 요인이지만, 오차는 우리가 통제하지 못하는 요인이다. 두 요인이 서로 뒤섞여서 종속변수에 영향을 미치는 것이기 때문에, 우리는 무엇이 진짜 독립변수의 영향인지 구별할 수 없게 된다.

 

 

4. OLS 추정량의 성질

1) OLS 추정량

  • OLS 추정량은 오차제곱합을 최소화시키는 추정량을 말한다.

β^n=(XTX)1(XTY)

σ^n2=1nkΣt=1nU^t2

2) OLS 추정량의 성질

  • CLM 가정 하에서 OLS 추정량은 BLUE이다.
  • (1) Unbiased

E[β^n]=β

E[σn2]=σ2

  • (2) Linear
  • (3) Best (Most Efficient): OLS 추정량의 분산은 임의의 불편추정량의 분산보다 작거나 같다.

 

  • BLUE와 무관하게 또 하나의 유용한 성질
  • (4) Conditional Normality

β^n|XN(β,σ2(XTX)1)

 

5. OLS 추정량을 사용한 가설검정

1) t-test statistics

  • 귀무가설이 하나의 선형제약으로 표현될 때
  • 다음과 같은 귀무가설 하에서

H0:βi=c

  • t-통계량은

tn=βincσn2(XTX)1t(nk)

2) F-test statistics

  • 귀무가설이 둘 이상의 선형제약으로 표현될 때
  • 다음과 같은 귀무가설 하에서

H0:Rβ=r

  • F-통계량은

Fn=WnrF(nk)

Wn=[Rβ^nr]T[σn2R(XTX)RT]1[Rβ^nr]