데이터분석 3

데이터 분석으로 "진짜로" "생존"하기 #1

어찌어찌 하고 싶었던 일로 일자리는 구했다.석사 마치고 계약직을 전전하면서 내가 뭘 하고 싶은지 고민하다가웹서비스 개발 회사의 데이터 분석가로 입직을 했다. 하지만 그 다음 단계가 기다리고 있었는데, 그것은 바로 독립이다.좋아! 경제적으로 독자적으로 생존하기 위한 데이터 분석을 해보기로 했다. 무슨무슨 직무 취업하기, 스킬업하기 이런 걸 위한 데이터 분석이 아니라 (나는 이런 걸 강의팔이용 데이터 분석이라고 부른다.   데이터 분석이란 문제를 해결하려는 구체적인 프로젝트로서 존재하는 것이다.)내 집 마련을 위한 재테크 전략부터 "data-driven"하게 유도해보기로 했다.  위 그래프는 2014년 9월부터 2024년 7월까지 대략 10년 간의 자산 가격 시계열을 월간으로 찍은 것이다. 파란색은 서울 아..

Machine Learning #5 클러스터링 : 근로자 임금 분포 클러스터링

1. 클러스터링의 개요 클러스터링(Clustering)이란 샘플 내의 대상들을 일정하게 분류하는 비지도학습 과제를 말한다. 가령 아래와 같은 2차원 변수 공간에 샘플들이 분포하고 있을 때, 샘플들을 각각의 집단으로 묶어내는 작업이다. 위 그림과 같은 상황에서, 직관적으로 세 개의 클러스터로 묶어내고 싶다는 생각이 들 것이다. 그러나 그런 기준들은 연구자의 직관에 의존하고 있어서 임의적이라는 한계를 갖는다. 클러스터링 기법들을 활용하면 임의성의 문제를 극복하고 샘플들을 일관적이고 합리적인 방식으로 묶어낼 수 있다. 나아가서 서로 특성이 다른 샘플들을 서로 다른 클러스터로 분류해 놓은 후에, 각 클러스터들이 어떤 특징을 갖는지 인사이트를 얻어낼 수 있다. 또는 원래 주어진 문제가 회귀 문제였다면, 샘플 전체..

Machine Learning #1 Linear Regression : 근로자 임금 회귀분석

GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning Practical Codes for Data Analysis using Machine Learning and Deep Learning - GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning github.com 1. 선형회귀모형의 도입 머신러닝 모델이라고 하면 복잡한 방법론을 떠올린다. 하지만 학부 통계학 강의에서도 쉽게 다루는 선형회귀모델도 머신러닝 모델의 한 유형이다..