1.1.1 머신 러닝 알고리즘
머신 러닝 알고리즘이 어떻게 동작하는지 알아보자. 머신 러닝 알고리즘은 다음 두 유형으로 나눈다.
• 지도 학습(Supervised Learning): 레이블(label)이 주어진 훈련 데이터를 사용해 입력(input) 변수를 목표(target) 변수로 변환하는 규칙을 학습하는 알고리즘이다. 예를 들어 온도, 시간대, 계절, 대기압 등 여러 입력 변수를 사용해 내일 비가 올지(목표 변수) 예측하는 기상 예보 알고리즘을 만들 수 있다.
• 비지도 학습(Unsupervised Learning): 레이블이 없는 훈련 데이터를 사용해 데이터 간 규칙을 학습하는 알고리즘이다. 비지도 학습의 가장 대표적인 활용 사례는 군집 분석으로, 레이블이 없는 데이터의 숨은 패턴과 군집을 발굴한다.
책에서는 지도 학습 알고리즘을 주로 다룬다. 지도 학습을 더 잘 이해할 수 있는 예제를 살펴보자. 머신 러닝에 열광하는 엔지니어이자 동물 애호가인 당신은 어느 날 지도 학습을 사용해 어떤 동물이 사람에게 우호적인지(예: 귀여운 강아지) 또는 적대적인지(예: 사나운 곰) 알아내는 머신 러닝 모델을 만들고 싶다. 예제를 단순하게 유지하기 위해 개와 곰 일부 품종의 몸무게와 달리기 속도만 수집했다고 가정하자. 당신은 학습에 사용할 훈련 데이터셋을 확보하고 데이터에 레이블(우호 또는 적대)을 달아 차트로 그렸다(그림 1-1).
▲ 그림 1-1 어떤 동물이 우호적 또는 적대적일까?