7.2 분류 알고리즘 이해하기
지도 학습 알고리즘이 사용하는 타깃 변수가 카테고리형이라면 알고리즘이 훈련하는 모델은 분류 모델입니다.
• 타깃 변수를 라벨(label)이라 합니다.
• 과거 데이터를 라벨이 있는 데이터(labeled data)라고 합니다.
• 예측에 사용할 프로덕션 데이터를 라벨이 없는 데이터(unlabeled data)라고 합니다.
주의 ≡
훈련된 모델을 이용해 라벨이 없는 데이터에 라벨을 정확하게 부여할 수 있는 능력이 분류 알고리즘의 진짜 성능입니다. 분류 모델은 라벨이 없는 데이터의 라벨을 예측하여 해당 비즈니스 문제에 대한 답을 제공합니다.
분류 알고리즘을 자세히 알아보기 전에, 분류 모델이 풀 수 있는 비즈니스 문제에는 어떤 것이 있는지 먼저 소개하겠습니다. 그러고 나서 여섯 가지 알고리즘이 성능과 접근 방식에서 어떤 차이가 있는지 비교하겠습니다.