이제 이상치를 확인해야 한다. 이 정도 크기의 빅데이터에는 이상치가 있게 마련이고, 모델을 왜곡할 수 있다. 통계 요약을 출력해 분포를 확인하자.
print(df.describe())
▲ 그림 3-8 통계 요약 확인
데이터셋에서 가장 저렴한 요금은 -44.90달러다. 하지만 요금이 음수가 될 수는 없다. 반면 가장 비싼 요금은 500달러다. 바가지요금일 수도 있고 단순히 오류일 수도 있다. 히스토그램으로 분포를 더 자세히 살펴보자.
df['fare_amount'].hist(bins=500) plt.xlabel("Fare") plt.title("Histogram of Fares") plt.show()