이제 이상치를 확인해야 한다. 이 정도 크기의 빅데이터에는 이상치가 있게 마련이고, 모델을 왜곡할 수 있다. 통계 요약을 출력해 분포를 확인하자.

    print(df.describe())
    099_1

    ▲ 그림 3-8 통계 요약 확인

    데이터셋에서 가장 저렴한 요금은 -44.90달러다. 하지만 요금이 음수가 될 수는 없다. 반면 가장 비싼 요금은 500달러다. 바가지요금일 수도 있고 단순히 오류일 수도 있다. 히스토그램으로 분포를 더 자세히 살펴보자.

    df['fare_amount'].hist(bins=500)
    plt.xlabel("Fare")
    plt.title("Histogram of Fares")
    plt.show()
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.