스팸 메일을 필터링하는 예를 생각해 보죠. 레이블된 이메일 데이터셋에서 지도 학습 머신 러닝 알고리즘을 사용하여 모델을 훈련할 수 있습니다. 이 데이터셋은 스팸 또는 스팸이 아닌 이메일로 정확하게 표시되어 있습니다. 훈련된 모델은 새로운 이메일이 두 개의 범주(category) 중 어디에 속하는지 예측합니다. 이메일 스팸 필터의 예처럼 개별 클래스 레이블이 있는 지도 학습을 분류(classification)라고 합니다. 지도 학습의 또 다른 종류는 연속적인 값을 출력하는 회귀(regression)입니다.
분류: 클래스 레이블 예측
분류는 지도 학습의 하위 카테고리입니다. 과거의 관측을 기반으로 새로운 샘플2 또는 새로운 데이터 포인트의 범주형 클래스 레이블을 예측하는 것이 목적입니다. 클래스 레이블은 이산적(discrete)이고 순서가 없어 샘플이 속한 그룹으로 이해할 수 있습니다. 앞서 언급한 스팸 메일 감지는 전형적인 이진 분류(binary classification) 작업의 예입니다. 스팸과 스팸이 아닌 이메일 두 개의 클래스 사이를 구분하려고 머신 러닝 알고리즘이 일련의 규칙을 학습합니다.