더북(TheBook)

4.2.1 판다스를 사용한 범주형 데이터 인코딩

범주형 데이터를 다루는 여러 기법을 살펴보기 전에 예제를 위한 새로운 DataFrame을 만들어 보죠.

>>> import pandas as pd
>>> df = pd.DataFrame([
...                    ['green', 'M', 10.1, 'class2'],
...                    ['red', 'L', 13.5, 'class1'], 
...                    ['blue', 'XL', 15.3, 'class2']])
>>> df.columns = ['color', 'size', 'price', 'classlabel']
>>> df
   color size  price classlabel
0  green    M   10.1     class2
1    red    L   13.5     class1
2   blue   XL   15.3     class2

앞 출력에서 볼 수 있듯이 새롭게 만든 DataFrame에는 순서가 없는 특성(color)과 순서가 있는 특성(size), 수치형 특성(price)이 있습니다. 클래스 레이블은 마지막 열에 저장되어 있습니다(지도 학습을 위해 데이터셋을 만든다고 가정합니다). 책에서 다루는 분류 학습 알고리즘은 순서가 있는 클래스 레이블을 사용하지 않습니다.6

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.