머신러닝 6

Hugging Face 사용법 (2) Fine-tuning

Hugging Face 사용법 (1) pipeline 함수 사용하기 및 모델 객체 로컬에 다운 받기 Hugging Face – The AI community building the future. The AI community building the future. Build, train and deploy state of the art models powered by the reference open source in machine learning. huggingface.co 0. Hugging Face 소개 허깅페이스는 seungbeomdo.tistory.com Fine tuning이란 pre-trained 모델을 구체적인 태스크에 맞게 추가적으로 훈련하는 과정을 말한다. 가령 주어진 직무 기술서를 보고..

Deep Learning #3 다양한 CNN: VGGNet, GoogleNet, ResNet

이전 포스팅에서는 CNN의 기본적인 골격을 살펴보았다. 여기서는 CNN의 발전 과정에서 많은 기여를 한 3가지의 대표적인 CNN 모델을 소개한다. [DL] CNN의 개요 1. Computer Vision Computer Vision(CV) 문제는 컴퓨터가 이미지를 잘 이해할 수 있도록 하는 과제를 말한다. 가령 자율주행 자동차가 지금 앞에 있는 것이 사람인지 텅 빈 도로인지를 잘 파악할 수 있도록 seungbeomdo.tistory.com 1. VGG Net 1.1. VGG Net의 개요 VGG Net은 2014년 이미지넷 인식 대회에서 준우승을 한 모델이다. 이전의 뉴럴넷 모델들에 비해 압도적으로 많은 레이어들을 사용해서 Deeper CNN 모델의 시초가 되었다. VGG Net은 레이어의 개수에 따라 ..

Machine Learning #5 클러스터링 : 근로자 임금 분포 클러스터링

1. 클러스터링의 개요 클러스터링(Clustering)이란 샘플 내의 대상들을 일정하게 분류하는 비지도학습 과제를 말한다. 가령 아래와 같은 2차원 변수 공간에 샘플들이 분포하고 있을 때, 샘플들을 각각의 집단으로 묶어내는 작업이다. 위 그림과 같은 상황에서, 직관적으로 세 개의 클러스터로 묶어내고 싶다는 생각이 들 것이다. 그러나 그런 기준들은 연구자의 직관에 의존하고 있어서 임의적이라는 한계를 갖는다. 클러스터링 기법들을 활용하면 임의성의 문제를 극복하고 샘플들을 일관적이고 합리적인 방식으로 묶어낼 수 있다. 나아가서 서로 특성이 다른 샘플들을 서로 다른 클러스터로 분류해 놓은 후에, 각 클러스터들이 어떤 특징을 갖는지 인사이트를 얻어낼 수 있다. 또는 원래 주어진 문제가 회귀 문제였다면, 샘플 전체..

Machine Learning #4 차원 축소 : 신용카드 연체 여부 예측

1. 차원 축소(Dimensionality Reduction) 대부분 데이터 분석의 궁극적인 목표는 종속변수 $Y$를 일련의 독립변수 집합 $[X_{1}, X_{2}, ... , X_{n}]$으로 설명하는 것이다. 그런데 이때 사용하는 독립변수 벡터의 차원이 너무 많으면 여러가지로 문제가 발생한다. 불필요한 혹은 다른 변수들과 유의한 차이가 없는 독립변수들이 포함되면 모형의 성능이 저하된다. 너무 많은 독립변수들을 고려하다보니 계산 비용이 증가한다. 비전문가에게 분석 결과를 이해시키는 직관적인 방법은 시각화인데, 변수 공간이 3차원 이상이 되면 시각화를 하기가 매우 어렵다. 따라서 모형이 사용할 독립변수들을 줄이는 것은 매우 중요한 과제라고 하겠다. 이때 독립변수 벡터의 차원을 줄인다고 해서, 이 과정을..

Machine Learning #2 Logistic Regression & SVM : 정규직 여부 분류 모델

GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning Practical Codes for Data Analysis using Machine Learning and Deep Learning - GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning github.com 1. 로짓 회귀분석 1.1. 로짓 회귀분석의 도입 선형회귀모델의 종속변수 $Y$는 대개 연속변수 혹은 수치형변수이다. 하지만 $Y$가 0 아니면 1의 값을 갖도록..

Machine Learning #1 Linear Regression : 근로자 임금 회귀분석

GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning Practical Codes for Data Analysis using Machine Learning and Deep Learning - GitHub - SeungbeomDo/DataAnalysis: Practical Codes for Data Analysis using Machine Learning and Deep Learning github.com 1. 선형회귀모형의 도입 머신러닝 모델이라고 하면 복잡한 방법론을 떠올린다. 하지만 학부 통계학 강의에서도 쉽게 다루는 선형회귀모델도 머신러닝 모델의 한 유형이다..