더북(TheBook)

이제 이상치를 확인해야 한다. 이 정도 크기의 빅데이터에는 이상치가 있게 마련이고, 모델을 왜곡할 수 있다. 통계 요약을 출력해 분포를 확인하자.

print(df.describe())
099_1

▲ 그림 3-8 통계 요약 확인

데이터셋에서 가장 저렴한 요금은 -44.90달러다. 하지만 요금이 음수가 될 수는 없다. 반면 가장 비싼 요금은 500달러다. 바가지요금일 수도 있고 단순히 오류일 수도 있다. 히스토그램으로 분포를 더 자세히 살펴보자.

df['fare_amount'].hist(bins=500)
plt.xlabel("Fare")
plt.title("Histogram of Fares")
plt.show()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.