극소수지만 승객 수가 0명인 데이터가 있다. 이 로우를 버리지 말고 대신 데이터의 최빈값(mode)으로 대체하자(즉, 1명이라고 간주하자).
df.loc[df['passenger_count']==0, 'passenger_count'] = 1
Note ≡
물론 최빈값을 사용하지 않고 승객 수가 0명인 로우를 그냥 제거해도 된다. 이와 같이 히스토그램으로 이상치와 최빈값을 손쉽게 확인할 수 있다는 점을 기억하자.
다음으로 승차 및 하차 위치에 이상치가 있는지 알아보자. 앞서 3.4.1절에서는 뉴욕시 경계 안에 있는 좌표만 점차트로 그렸다. 이번에는 제한 없이 그려 보자.
df.plot.scatter('pickup_longitude', 'pickup_latitude') plt.show()
▲ 그림 3-11 점차트로 그린 승차 및 하차 위치. 이상치를 확인할 수 있다.