더북(TheBook)

데이터프레임의 데이터셋에 대해 원-핫 인코딩(one-hot encoding)을 적용해 보겠습니다.

코드 8-3 원-핫 인코딩 적용

label = pd.get_dummies(df['label'], prefix='label') ------ ①
df = pd.concat([df, label], axis=1)
df.drop(['label'], axis=1, inplace=True) ------ ②

① 문자를 숫자로 바꾸어 주는 방법 중 하나로 원-핫 인코딩이 있는데, 이것은 가변수(dummy variable)로 만들어 주는 방법으로 get_dummies() 메서드를 사용합니다. 결과는 0과 1로 된 열을 반환합니다.

drop 명령어로 열 전체를 삭제할 수 있습니다.

axis=1은 열을 삭제하고, axis=0은 행을 삭제합니다. axis=0이 기본값입니다.

inplace는 기존 데이터프레임의 데이터를 삭제하고 drop이 적용된 이후의 데이터프레임으로 대체하겠다는 의미입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.