더북(TheBook)

극소수지만 승객 수가 0명인 데이터가 있다. 이 로우를 버리지 말고 대신 데이터의 최빈값(mode)으로 대체하자(즉, 1명이라고 간주하자).

df.loc[df['passenger_count']==0, 'passenger_count'] = 1

Note ≡

물론 최빈값을 사용하지 않고 승객 수가 0명인 로우를 그냥 제거해도 된다. 이와 같이 히스토그램으로 이상치와 최빈값을 손쉽게 확인할 수 있다는 점을 기억하자.

다음으로 승차 및 하차 위치에 이상치가 있는지 알아보자. 앞서 3.4.1절에서는 뉴욕시 경계 안에 있는 좌표만 점차트로 그렸다. 이번에는 제한 없이 그려 보자.

df.plot.scatter('pickup_longitude', 'pickup_latitude')
plt.show()
101

▲ 그림 3-11 점차트로 그린 승차 및 하차 위치. 이상치를 확인할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.