데이터프레임의 데이터셋에 대해 원-핫 인코딩(one-hot encoding)을 적용해 보겠습니다.
코드 8-3 원-핫 인코딩 적용
label = pd.get_dummies(df['label'], prefix='label') ------ ①
df = pd.concat([df, label], axis=1)
df.drop(['label'], axis=1, inplace=True) ------ ②
① 문자를 숫자로 바꾸어 주는 방법 중 하나로 원-핫 인코딩이 있는데, 이것은 가변수(dummy variable)로 만들어 주는 방법으로 get_dummies() 메서드를 사용합니다. 결과는 0과 1로 된 열을 반환합니다.
② drop 명령어로 열 전체를 삭제할 수 있습니다.
ⓐ axis=1은 열을 삭제하고, axis=0은 행을 삭제합니다. axis=0이 기본값입니다.
ⓑ inplace는 기존 데이터프레임의 데이터를 삭제하고 drop이 적용된 이후의 데이터프레임으로 대체하겠다는 의미입니다.