더북(TheBook)

모델 훈련과 평가 단계에서는 라벨이 있는 데이터를 사용합니다. 이 데이터는 크기가 큰 훈련 데이터와 크기가 작은 테스트 데이터로 나뉩니다. 이때 훈련 데이터와 테스트 데이터가 비슷한 패턴이 되도록 무작위로 샘플링하여 데이터를 나눕니다. 그림에 표시된 것처럼 모델 훈련 단계에서는 훈련 데이터로 모델을 학습하고 훈련이 종료되면 테스트 데이터로 훈련된 모델의 성능을 평가합니다. 모델의 성능을 평가하는 데는 여러 척도를 사용합니다. 성능 평가가 끝나면 다음은 배포 단계입니다. 이 단계에서는 모델이 라벨이 없는 데이터의 라벨을 예측하여 현실 세계의 문제를 해결합니다.

다음 절에서는 다음과 같은 분류 알고리즘을 알아보겠습니다.

결정 트리 분류 알고리즘

XGBoost 알고리즘

랜덤 포레스트 알고리즘

로지스틱 회귀 알고리즘

서포트 벡터 머신(SVM) 알고리즘

나이브 베이즈 알고리즘

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.