더북(TheBook)

9장 분류 알고리즘 I: 데이터 탐색, 전처리, 모델 평가 방법 설정

관측값의 특징(피처; Feature)*과 관측값의 분류(Category)가 저장된 훈련 데이터를 사용해 모델을 훈련시키고, 이 모델을 사용해 새로운 관측값의 분류를 예측하는 것을 분류 알고리즘이라 한다(참고자료 [2]. 예를 들어, 아이리스 데이터의 Petal.Width, Petal.Length, Sepal.Width, Sepal.Length로부터 Species(붓꽃의 종류)를 예측하는 문제가 이에 속한다. 분류 알고리즘은 이메일이 스팸인지 아닌지를 분류하거나 의학 데이터로부터 환자의 종양이 양성인지 악성인지, 어떤 금융 거래가 사기인지 아닌지, 어떤 네트워크 트래픽이 해킹인지 아닌지를 판단하는 등 사용처가 매우 많은 분야다. 분류 알고리즘에 사용되는 훈련 데이터에는 각 데이터가 어떤 분류에 속하는지 모두 명시되어 있을 수도 있고, 데이터의 일부에만 명시되어 있을 수도 있다. 훈련 데이터의 모두에 분류가 명시된 경우를 교사 학습(지도 학습 또는 감독 학습; Supervised Learning)이라고 하고, 훈련 데이터의 일부에만 분류가 명시된 경우를 준교사 학습(준지도 학습; Semi-Supervised Learning)이라 한다. 이 장에서는 이들 중 데이터의 전부에 분류가 명시된 경우인 교사 학습에 대해서 살펴본다. 그리고 기계 학습을 통한 분류 알고리즘 작성의 단계 중 전반부에 해당하는 데이터 탐색, 전처리, 모델 평가 방법 설정을 알아본다. 이어 10장에서 기계 학습 알고리즘을 살펴볼 것이다.

01  데이터 탐색

02  전처리

03  모델 평가 방법


* 이 장에서는 변수, 독립 변수, 피처(참고자료 [1])라는 말을 적절히 혼용해서 사용했다. 이 셋 모두 분류를 예측하기 위한 데이터 값으로 이해하면 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.