더북(TheBook)

7.2 분류 알고리즘 이해하기

지도 학습 알고리즘이 사용하는 타깃 변수가 카테고리형이라면 알고리즘이 훈련하는 모델은 분류 모델입니다.

타깃 변수를 라벨(label)이라 합니다.

과거 데이터를 라벨이 있는 데이터(labeled data)라고 합니다.

예측에 사용할 프로덕션 데이터를 라벨이 없는 데이터(unlabeled data)라고 합니다.

주의 ≡

훈련된 모델을 이용해 라벨이 없는 데이터에 라벨을 정확하게 부여할 수 있는 능력이 분류 알고리즘의 진짜 성능입니다. 분류 모델은 라벨이 없는 데이터의 라벨을 예측하여 해당 비즈니스 문제에 대한 답을 제공합니다.

분류 알고리즘을 자세히 알아보기 전에, 분류 모델이 풀 수 있는 비즈니스 문제에는 어떤 것이 있는지 먼저 소개하겠습니다. 그러고 나서 여섯 가지 알고리즘이 성능과 접근 방식에서 어떤 차이가 있는지 비교하겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.