더북(TheBook)

Note ≡ 순서가 없는 명목형 데이터(nominal data)를 위한 다른 인코딩 방법


원-핫 인코딩이 순서가 없는 범주형 변수를 인코딩하는 가장 일반적인 방법이지만 다른 방법도 있습니다. 일부 방법은 카디널리티(cardinality)가 높은 (고유한 범주 레이블이 많은) 범주형 특성을 다룰 때 유용합니다. 예를 들어 다음과 같습니다.

원-핫 인코딩과 비슷하게 여러 개의 이진 특성을 만들지만 특성 열이 더 적게 필요한 이진 인코딩(binary encoding)입니다. 예를 들어 K-1개가 아니라 log2(K)개를 사용합니다. 여기에서 K는 고유한 범주 개수입니다. 이진 인코딩에서는 먼저 숫자가 이진 표현으로 변환되고 그다음 각 이진수 위치가 새로운 특성 열을 형성하게 됩니다.

범주 레이블을 훈련 세트에 등장하는 횟수나 빈도로 바꾸는 카운트 또는 빈도 인코딩입니다.

 

이런 방법을 포함하여 다른 범주형 인코딩 방법을 사이킷런과 호환되는 category_encoders 라이브러리(https://contrib.scikit-learn.org/category_encoders/)에서 제공합니다.

이런 방법이 원-핫 인코딩보다 더 좋은 성능을 낸다고 보장하지는 못하지만 범주형 변수의 인코딩 방식을 모델 성능을 향상하기 위한 추가적인 하이퍼파라미터로 고려할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.