더북(TheBook)

1.4.3 판다스를 활용한 데이터 전처리

마지막으로 판다스를 데이터 전처리 작업에 활용하는 방법을 알아보자. 특히 범주형 변수를 인코딩하는 방법과 결측값을 보간하는 방법을 살펴본다.

 

1.4.3.1 범주형 변수 인코딩

머신 러닝 프로젝트에서는 범주형 변수를 포함한 데이터셋을 다룰 경우가 많다. 범주형 변수의 예시는 다음과 같다.

성별: 남성, 여성

요일: 월, 화, 수, 목, 금, 토, 일

국가: 미국, 영국, 중국, 일본 등

 

신경망과 일부 머신 러닝 알고리즘은 숫자만 입력받을 수 있어 범주형 변수를 바로 사용할 수 없다. 따라서 범주형 변수를 머신 러닝에 사용하려면 반드시 전처리를 거쳐야 한다.

범주형 변수를 숫자형 변수로 바꾸는 한 가지 방법으로 원핫 인코딩(one-hot encoding)을 사용할 수 있다. 판다스는 원핫 인코딩을 get_dummies() 함수로 구현해 제공한다. 예를 들어 N개 범주 값을 담은 범주형 변수를 원핫 인코딩을 사용해 변환하면, 이진 특징 변수 N개를 얻을 수 있다. 다음 그림 1-16의 예시를 살펴보자.

▲ 그림 1-16 원핫 인코딩 적용 예

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.