더북(TheBook)

일단 0달러보다 작거나 100달러보다 큰 요금을 가진 로우를 제거하자.

df = df[(df['fare_amount'] >=0) & (df['fare_amount'] <= 100)]

그림 3-8에서 볼 수 있듯이, passenser_count 칼럼에도 이상치가 있다. 이 변수의 히스토그램도 그려 보자.

df['passenger_count'].hist(bins=6, ec='black')
plt.xlabel("Passenger Count")
plt.title("Histogram of Passenger Count")
plt.show()
100

▲ 그림 3-10 승객 수 분포

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.