차원축소 2

Machine Learning #5 클러스터링 : 근로자 임금 분포 클러스터링

1. 클러스터링의 개요 클러스터링(Clustering)이란 샘플 내의 대상들을 일정하게 분류하는 비지도학습 과제를 말한다. 가령 아래와 같은 2차원 변수 공간에 샘플들이 분포하고 있을 때, 샘플들을 각각의 집단으로 묶어내는 작업이다. 위 그림과 같은 상황에서, 직관적으로 세 개의 클러스터로 묶어내고 싶다는 생각이 들 것이다. 그러나 그런 기준들은 연구자의 직관에 의존하고 있어서 임의적이라는 한계를 갖는다. 클러스터링 기법들을 활용하면 임의성의 문제를 극복하고 샘플들을 일관적이고 합리적인 방식으로 묶어낼 수 있다. 나아가서 서로 특성이 다른 샘플들을 서로 다른 클러스터로 분류해 놓은 후에, 각 클러스터들이 어떤 특징을 갖는지 인사이트를 얻어낼 수 있다. 또는 원래 주어진 문제가 회귀 문제였다면, 샘플 전체..

Machine Learning #4 차원 축소 : 신용카드 연체 여부 예측

1. 차원 축소(Dimensionality Reduction) 대부분 데이터 분석의 궁극적인 목표는 종속변수 $Y$를 일련의 독립변수 집합 $[X_{1}, X_{2}, ... , X_{n}]$으로 설명하는 것이다. 그런데 이때 사용하는 독립변수 벡터의 차원이 너무 많으면 여러가지로 문제가 발생한다. 불필요한 혹은 다른 변수들과 유의한 차이가 없는 독립변수들이 포함되면 모형의 성능이 저하된다. 너무 많은 독립변수들을 고려하다보니 계산 비용이 증가한다. 비전문가에게 분석 결과를 이해시키는 직관적인 방법은 시각화인데, 변수 공간이 3차원 이상이 되면 시각화를 하기가 매우 어렵다. 따라서 모형이 사용할 독립변수들을 줄이는 것은 매우 중요한 과제라고 하겠다. 이때 독립변수 벡터의 차원을 줄인다고 해서, 이 과정을..