더북(TheBook)

당연하게도 sepal_length에 결측값(즉, 널(null))이 있다고 나왔다. 이처럼 판다스를 사용해 결측값이 어떤 칼럼에 있는지 간편하게 확인할 수 있다.

결측 문제를 해결하는 가장 쉬운 방법은 해당 로우를 제거하는 것이다. 이 기능은 판다스의 dropna 함수가 지원한다.

print("Number of rows before deleting: %d" % (df.shape[0]))
df2 = df.dropna()
print("Number of rows after deleting: %d" % (df2.shape[0]))

▲ 그림 1-20 결측값이 있는 로우 제거

또는 결측값을 sepal_length 칼럼의 평균값으로 대체할 수 있다.

df.sepal_length = df.sepal_length.fillna(df.sepal_length.mean())

Note ≡

판다스의 df.mean() 함수는 결측값을 제외한 평균을 계산한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.