더북(TheBook)

3.5.1 결측값 및 이상치 처리

먼저 데이터셋에 결측값이 있는지 살펴보자.

print(df.isnull().sum())
098

▲ 그림 3-7 결측값 확인

전체 50만 로우 중에 결측값을 가진 로우는 다섯 개뿐이다. 전체의 0.001%에 해당하므로 제거해도 문제없을 듯하다. 다음 코드로 삭제할 수 있다.

df = df.dropna()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.