더북(TheBook)

4.2 범주형 데이터 다루기

지금까지는 수치형 데이터만 사용했습니다. 실제 데이터셋은 하나 이상의 범주형 특성이 포함된 경우가 많습니다. 이 절에서 간단하지만 효과적인 예를 사용하여 이런 데이터를 수치 계산용 라이브러리에서 어떻게 다루는지 알아보겠습니다.

범주형 데이터에 관해 이야기할 때 순서가 있는 것과 없는 것을 구분해야 합니다. 순서가 있는 특성은 정렬하거나 차례대로 놓을 수 있는 범주형 특성으로 생각할 수 있습니다. 예를 들어 티셔츠 사이즈는 XL > L > M으로 순서를 정할 수 있으므로 순서가 있는 특성입니다. 반대로 순서가 없는 특성은 차례를 부여할 수 없습니다. 앞의 예에서 티셔츠 컬러는 순서가 없는 특성입니다. 일반적으로 빨강이 파랑보다 더 크다고 말할 수 없습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.