순서가 있는 특성 인코딩하기
순서가 있는 특성의 범주 사이에서 수치적 크기에 대해 확신이 없거나 두 범주 사이의 순서를 정의할 수 없다면 임계 값을 사용하여 0/1로 인코딩할 수 있습니다. 예를 들어 M, L, XL 값을 가진 특성 size를 두 개의 새로운 특성 'x > M'과 'x > L'로 나눌 수 있습니다.
>>> df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
... ['red', 'L', 13.5, 'class1'],
... ['blue', 'XL', 15.3, 'class2']])
>>> df.columns = ['color', 'size', 'price', 'classlabel']
>>> df
|
color |
size |
price |
classlabel |
0 |
green |
M |
10.1 |
class2 |
1 |
red |
L |
13.5 |
class1 |
2 |
blue |
XL |
15.3 |
class2 |