더북(TheBook)

결측치가 많은 항목은 1,460개의 샘플 중에서 1,453개나 비어 있을 만큼 빠진 곳이 많은 것을 확인할 수 있습니다.

이제 모델을 만들기 위해 데이터를 전처리하겠습니다. 먼저 12.3절에서 소개되었던 판다스의 get_dummies() 함수를 이용해 카테고리형 변수를 0과 1로 이루어진 변수로 바꾸어 줍니다.

df = pd.get_dummies(df)

그리고 결측치를 채워 줍니다. 결측치를 채워 주는 함수는 판다스의 fillna()입니다. 괄호 안에 df.mean()을 넣어 주면 평균값으로 채워 줍니다.

df = df.fillna(df.mean())

TIP

특정한 값으로 대체하려면 fillna() 함수의 괄호 안에 해당 값을 적으면 됩니다. 예를 들어 결측치를 모두 0으로 바꾸려면 fillna(0)이 됩니다. dropna()를 사용하면 결측치가 있는 속성을 제거해 줍니다. 이때 dropna(how='any')는 결측치가 하나라도 있으면 삭제하라는 의미이고, dropna(how='all')은 모든 값이 결측치일 때 삭제하라는 의미입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.