단계별로 살펴봅시다.
• 1단계: 비즈니스 이해 - 비즈니스 관점에서 문제와 요구사항을 세밀하게 이해하는 단계입니다. 문제의 범위를 정의하고 머신러닝 맥락에 맞게 문제를 재정의하는 것이 중요합니다. 또한, 이 단계에서는 4단계에서 학습할 머신러닝 모델의 기대 성능을 정의합니다. 예를 들어, 분류 문제에서는 실제 프로덕션에 적용하기 위해 필요한 최소 정확도를 정의해야 합니다.
주의 ≡
CRISP-DM의 1단계는 비즈니스 이해입니다. 이 단계에서는 문제를 어떻게 풀지 정하는 것이 아니라 무엇을 풀어야 할지에 집중합니다.
• 2단계: 데이터 이해 - 데이터 마이닝에 사용할 데이터를 이해합니다. 이 단계에서는 풀려는 문제에 적합한 데이터가 존재하는지 판단합니다. 적합한 데이터셋을 확보한 후에는 데이터의 품질과 구조를 이해해야 합니다. 데이터로부터 추출할 수 있는 패턴도 식별해야 합니다. 이 패턴은 중요한 인사이트로 이어질 가능성이 있습니다. 또한, 1단계에서 확보한 요구사항의 라벨 또는 타깃 변수로 사용하기 적합한 특성을 찾아야 합니다. 비지도 학습은 2단계의 목적을 달성하는 데 중요한 역할을 수행할 수 있습니다. 비지도 학습은 다음과 같은 목적으로 사용할 수 있습니다.
– 데이터셋에 존재하는 패턴 탐색하기
– 패턴을 탐색하여 데이터셋의 구조 이해하기
– 타깃 변수를 식별하거나 만들기