더북(TheBook)

7.2.1 분류 문제 소개

여섯 가지 분류 알고리즘을 모두 적용할 수 있는 공통 문제를 소개합니다. 성능을 비교하기 위해 동일한 특성 벡터를 사용하여 훈련을 진행하겠습니다. 이를 통해 얻을 수 있는 두 가지 이점은 다음과 같습니다.

모든 입력 변수들은 전처리를 거쳐 특성 벡터라는 자료 구조로 정리됩니다. 동일한 특성 벡터를 사용하면 알고리즘을 바꿀 때마다 데이터 전처리를 반복할 필요가 없어집니다.

동일한 입력 변수를 사용하기 때문에 분류 알고리즘에 따른 성능을 비교할 수 있습니다.

이 분류 문제는 고객이 제품을 구매할지 예측하는 것입니다. 리테일 산업에서 매출을 극대화하는 방법 중 하나는 고객의 행동을 더 잘 이해하는 것입니다. 데이터에 담긴 패턴을 분석하면 됩니다. 먼저 문제를 정의하겠습니다.

 

분류 문제 정의

어떤 고객의 프로필을 이용해 그가 제품을 구매할지 예측하는 이진 분류 모델을 훈련할 수 있을까요?

먼저 문제를 푸는 데 필요한 데이터를 살펴봅시다. 이 데이터는 라벨이 있는 데이터입니다.

x € b, y € {0,1}

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.