더북(TheBook)

이렇게 보면 결측값이 없는 것처럼 보인다. 데이터셋의 통계 요약을 출력해 보자.

print(df.describe())

▲ 그림 2-8 피마 인디언 당뇨 데이터셋의 통계 요약 출력

데이터셋에는 로우가 총 768개 있고, Pregnancies, Glucose, BloodPressure, SkinTickness, Insulin, BMI 칼럼의 최솟값이 모두 0이다. 하지만 이 수치는 0이 될 수 없으므로 0이 바로 결측값이다. 아마도 데이터 수집에 문제가 있었을 것이다. 측정 장비에 오류가 있었거나 환자가 수치 공개를 거부했을 수도 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.