7.2.1 분류 문제 소개
여섯 가지 분류 알고리즘을 모두 적용할 수 있는 공통 문제를 소개합니다. 성능을 비교하기 위해 동일한 특성 벡터를 사용하여 훈련을 진행하겠습니다. 이를 통해 얻을 수 있는 두 가지 이점은 다음과 같습니다.
• 모든 입력 변수들은 전처리를 거쳐 특성 벡터라는 자료 구조로 정리됩니다. 동일한 특성 벡터를 사용하면 알고리즘을 바꿀 때마다 데이터 전처리를 반복할 필요가 없어집니다.
• 동일한 입력 변수를 사용하기 때문에 분류 알고리즘에 따른 성능을 비교할 수 있습니다.
이 분류 문제는 고객이 제품을 구매할지 예측하는 것입니다. 리테일 산업에서 매출을 극대화하는 방법 중 하나는 고객의 행동을 더 잘 이해하는 것입니다. 데이터에 담긴 패턴을 분석하면 됩니다. 먼저 문제를 정의하겠습니다.
분류 문제 정의
어떤 고객의 프로필을 이용해 그가 제품을 구매할지 예측하는 이진 분류 모델을 훈련할 수 있을까요?
먼저 문제를 푸는 데 필요한 데이터를 살펴봅시다. 이 데이터는 라벨이 있는 데이터입니다.
x € ℜb, y € {0,1}