계량경제학 #1 고전적 선형회귀 모형

시계열&계량경제학

계량경제학 #1 고전적 선형회귀 모형

seungbeomdo 2023. 5. 11. 16:38

1. 선형회귀 모형의 개요

선형회귀 모형은 종속변수 $Y$ 를 독립변수 집합 $X_1$ , $X_2$ , ... , $X_k$ 의 선형함수로 설명하는 모형이다.

일반적으로 주어진 독립변수 집합 하에서 종속변수의 조건부 평균을 구하는 것이 목표이다. 즉 다음의 조건부 평균을 만족시키는 회귀계수 $\beta_*$ 를 구하는 것이다.

$E [Y_{t} | X_{t}] = β_{1} X_{t 1} + β_{2} X_{t 2} + . . . + β_{k} X_{t k} = X_{t}^{T} β_{*}$

where

$X_{t}^{T} = [X_{t 1}, X_{t 2}, \dots, X_{t k}]$

$β_{*} = [β_{1}, β_{2}, \dots, β_{k}]^{T}$

실제 $Y$ 는 독립변수 벡터로 설명된 것과는 다를 수밖에 없다. 그 차이만큼을 오차 $U$ 로 나타낸다.

$Y_{t} = X_{t}^{T} β_{*} + U_{t}$

where

$U_{t} = Y_{t} - X_{t}^{T} β_{*} = Y_{t} - E [Y_{t} | X_{t}]$

즉 독립변수들을 사용해서 $Y$ 에 대한 조건부 평균을 구하는 것이 실질적인 목표이다. 완벽하게 설명하지 못하고 남은 오차는 그대로 남겨둔다.

2. 고전적 선형회귀 모형

고전적 선형회귀 모형(CLM; Classical Linear Model)은 가장 기본적인 형태이다.
IID, 선형성, 가역성, 비특이성, 동분산성, 정규성 그리고 외생성의 7가지 가정을 사용한다.
이후에 다룰 다른 모형들은 CLM을 구성하는 가정들이 만족되지 않을 때 사용하는 대안적인 모형들이다.

3. 고전적 선형회귀 모형의 가정

1) IID: Independently & Identically Distributed

가장 기본적인 데이터 가정은 IID 가정이다.
IID 가정은 데이터셋을 구성하는 각 벡터 [ $Y_{t}$ , $X_{t1}$ , $X_{t2}$ , ..., $X_{tk}$ ]가 독립적이고 동일한 확률분포를 갖는다는 것이다.

주의해야 할 것: $Y_{t}$ 와 $X_{ti}$ , 혹은 $X_{ti}$ 와 $X_{tj}$ 가 IID하다는 의미가 아니다.
임의의 $t$ 와 $\tau$ 에 대하여, 두 벡터 [ $Y_{t}$ , $X_{t1}$ , $X_{t2}$ , ..., $X_{tk}$ ]와 [ $Y_{\tau}$ , $X_{\tau1}$ , $X_{\tau2}$ , ..., $X_{\tau k}$ ]가 IID하다는 것이다.

2) 선형성: Linearity

두번째 가정은 선형성이다.
선형성 가정은 종속변수 $Y$ 의 조건부 평균을 독립변수 벡터의 선형함수로 나타낼 수 있다는 것이다.
즉, 다음의 식을 성립시키는 $\beta_i$ 들이 존재한다.

$E [Y_{t} | X_{t 1}, . . ., X_{t k}] = β_{1} X_{t 1} + β_{2} X_{t 2} + . . . + β_{k} X_{t k}$

선형회귀 모형의 맥락에서, 선형성에 대한 일반적인 오해가 있다. 예를 들어

$E [Y_{t} | X_{t}] = β X_{t}$

는 선형 모델이지만, 다음의 모델은 선형 모델이 아니라는 것이다.

$E [Y_{t} | X_{t}] = β_{1} X_{t} + β_{2} X_{t}^{2}$

하지만 두 모델은 모두 선형회귀 모형이다. 두번째 모형에서 $Y_{t}$ 가 $X_{t}$ 의 제곱항으로 나타나기 때문에 $X_{t}$ 에 대해서는 선형이 아니다. 하지만 [ $X_{t}$ , $X_{t}^{2}$ ]에 대해서는 선형이다.
그리고 선형회귀 모형에서 '선형'이란 독립변수 벡터 자체에 대해 선형이라는 것을 의미한다. 따라서 제곱항이나 세제곱항을 포함한다고 해서 비선형이라고 하지는 않는다.

3) 가역성: Invertibility

세번째 가정은 가역성이다.
다음의 행렬이 가역이라는 것을 의미한다.

$X^{T} X$

다른 폰트로 나타낸 $\mathsf{X}$ 는 독립변수 벡터로 구성된 행렬을 의미한다.

$X = [\begin{matrix} X_{11} X_{12} \dots X_{1 n} \\ X_{21} X_{22} \dots X_{2 n} \\ ⋮ \\ X_{k 1} X_{k 2} \dots X_{k n} \end{matrix}]$

이 행렬의 각 행(row)은 몇번째 독립변수인가를 나타낸다. 각 열(column)은 샘플 중 몇번째로 관측된 개체인가를 나타낸다. 즉 행은 변수이고, 열은 개체를 나타낸다.

가역성 조건은 다소 수리적인 이유로 필요하다. 선형회귀 모형의 회귀계수를 구할 때, 최소제곱합 회귀계수(OLS)를 사용할 것인데, 회귀계수를 구할 때 위 행렬이 가역이어야 한다.

4) 비특이성: 완전한 다중공선성의 부재

비특이성은 완전한 다중공선성(Multicollinearity)의 부재라는 개념으로 더 자주 인용된다.
이는 회귀모형을 구성하는 독립변수들 간에 선형종속(Linearly dependent) 관계가 존재하지 않는다는 것이다.

예를 들어 어떤 사람의 학력이 대졸인지 여부에 따라 임금에 미치는 영향을 보고 싶다고 하면 다음과 같은 회귀식을 만들 수 있다.

$Y_{t} = β_{0} + β_{1} N o n U n i v_{t} + β_{2} U n i v_{t} + U_{t}$

이때, Univ는 대졸 이상이면 1, 대졸 미만이면 0의 값을 갖는 변수이다. NonUniv는 대졸 미만이면 1, 대졸 이상이면 0의 값을 갖는 변수이다.

이러한 회귀식은 다중공선성 가정에 위배된다. 왜냐하면 모형에서 사용하는 두 변수 간에는
NonUniv + Univ = 1의 선형종속 관계가 존재하기 때문이다.

즉 모든 사람은 대졸 미만이거나 대졸 이상이기 때문에, NonUniv 변수와 Univ 변수는 독립적인 변수가 아니다. 두 변수는 독립적인 정보를 담고 있지 못하다.
이런 상황에서는 OLS 추정량이 유일하게 결정되지 않는다. 2원 연립방정식에서 두 방정식이 독립적인 정보를 가지고 있지 못하면 방정식의 해는 유일하지 않은 것과 같은 원리이다. 이 경우 연립방정식이 특이하다(Singular)고 말한다.

대졸 여부가 임금에 미치는 영향을 보고 싶으면 회귀식을 다음과 같이 만들어야 한다.

$Y_{t} = β_{0} + β_{1} U n i v_{t} + U_{t}$

위의 변수 설정만으로도, 한 사람이 대졸 미만인지 대졸 이상인지를 가리키기에는 충분하다.
즉 완전한 다중공선성의 문제를 해결하기 위해서는, 공선성을 일으키는 변수들 중 하나를 모형에서 제거하면 된다.

5) 정규성과 동분산성

정규성과 동분산성 가정은 모두 오차의 확률분포에 대한 가정이므로 한 번에 설명한다.
2개의 가정이 모두 성립하면, 오차의 조건부 확률분포는 다음과 같다.

$U_{t} | X_{t} \sim I I D . N (0, σ^{2})$

where $X_{t} = [X_{t 1}, X_{t 2}, \dots, X_{t k}]^{T}$

오차의 확률분포가 아니라 오차의 조건부 확률분포임에 주목하자.

이때 오차의 조건부 확률분포가 정규분포라는 것이 정규성(Normality)
오차의 조건부 분산이 상수라는 것이 동분산성(Homoskedasticity)

오차가 IID 분포를 가진다는 것은 데이터셋의 IID 가정 하에서, 오차의 정의에 의해 성립한다.

$U_{t} | X_{t} = (Y_{t} - E [Y_{t} | X_{t}] | X_{t})$

우변을 구성하는 항들은 IID 조건을 만족하는 $[Y_{t}, \mathsf{X}_{t}^T]$ 의 함수이므로, 당연히 IID를 만족

오차의 조건부 평균이 0이라는 것은 오차의 정의에 의해 곧바로 성립한다. 이를 mean independence라고도 부른다.

$E [U_{t} | X_{t}] = E [Y_{t} - E [Y_{t} | X_{t}] | X_{t}] = E [Y_{t} | X_{t}] - E [Y_{t} | X_{t}] = 0$

6) 외생성: Exogeneity

외생성 조건은 다음과 같다.

$E [X_{t} U_{t}] = 0$

이때 $0$ 은 스칼라가 아니라 k차원의 벡터이다.

외생성 조건은 모형의 독립변수가 외생적이라는 의미이다. 외생적이라는 것은 모형 바깥에서 이미 결정돼 주어진다는 의미이다. 즉 독립변수가 진짜 독립적인가?를 묻는 조건이다.
외생적이지 못한 독립변수는 내생적(Endogeneous)이라고 말한다.

외생성의 수식적 표현에서 볼 수 있듯이, 외생성이 존재하면 독립변수와 오차 간의 상관이 존재한다. 이는 오차에 의해서 어느정도는 독립변수가 결정된다는 것이다. 독립변수에 의해서 오차가 어느정도는 결정된다는 것이다.
독립변수는 우리가 모형 내에서 통제하는 요인이지만, 오차는 우리가 통제하지 못하는 요인이다. 두 요인이 서로 뒤섞여서 종속변수에 영향을 미치는 것이기 때문에, 우리는 무엇이 진짜 독립변수의 영향인지 구별할 수 없게 된다.

4. OLS 추정량의 성질

1) OLS 추정량

OLS 추정량은 오차제곱합을 최소화시키는 추정량을 말한다.

${\hat{β}}_{n} = (X^{T} X)^{- 1} (X^{T} Y)$

${\hat{σ}}_{n}^{2} = \frac{1}{n - k} Σ_{t = 1}^{n} {\hat{U}}_{t}^{2}$

2) OLS 추정량의 성질

CLM 가정 하에서 OLS 추정량은 BLUE이다.
(1) Unbiased

$E [{\hat{β}}_{n}] = β_{*}$

$E [σ_{n}^{2}] = σ_{*}^{2}$

(2) Linear
(3) Best (Most Efficient): OLS 추정량의 분산은 임의의 불편추정량의 분산보다 작거나 같다.

BLUE와 무관하게 또 하나의 유용한 성질
(4) Conditional Normality

${\hat{β}}_{n} | X \sim N (β_{*}, σ_{*}^{2} (X^{T} X)^{- 1})$

5. OLS 추정량을 사용한 가설검정

1) t-test statistics

귀무가설이 하나의 선형제약으로 표현될 때
다음과 같은 귀무가설 하에서

$H_{0} : β_{i *} = c$

t-통계량은

$t_{n} = \frac{β_{i n} - c}{\sqrt{σ_{n}^{2} (X^{T} X)^{- 1}}} \sim t (n - k)$

2) F-test statistics

귀무가설이 둘 이상의 선형제약으로 표현될 때
다음과 같은 귀무가설 하에서

$H_{0} : R β_{*} = r$

F-통계량은

$F_{n} = \frac{W_{n}}{r} \sim F (n - k)$

$W_{n} = [R {\hat{β}}_{n} - r]^{T} [σ_{n}^{2} R (X^{T} X) R^{T}]^{- 1} [R {\hat{β}}_{n} - r]$

'시계열&계량경제학' 카테고리의 다른 글

계량경제학 #3 이분산 가정 하에서 OLS: HC 추정량과 FGLS (0)	2023.05.18
계량경제학 #2 비정규 가정 하에서 OLS 추정량의 성질 (0)	2023.05.14
DeepAR (0)	2023.02.24
시계열 분석 #11: VAR 모형의 이슈들 (0)	2023.02.15
시계열 분석 #10 벡터자기회귀(VAR) (0)	2023.02.14

현재글계량경제학 #1 고전적 선형회귀 모형

seungbeomdo seungbeomdo 님의 블로그입니다.

기업재무, BIS, 회귀분석, 머신러닝, RWA, 리스크, 옵션, 시계열, 블랙숄즈머튼, ols, RNN, 위험가중자산, 내생성, 정상성, 금융, 신용리스크, 계량경제학, 파생상품, 딥러닝, 바젤,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

seungbeomdo