점차트 가장자리에 있는 점들은 모두 이상치다. 가장 큰 위도 값은 1000을 넘고, 가장 작은 값은 -3000을 넘는다. 하지만 지리 좌표 체계에는 이렇게 큰 위도 경도 값이 없다. 이 값을 제거하자.
# 뉴욕시 경도 범위 nyc_min_longitude = -74.05 nyc_max_longitude = -73.75 # 뉴욕시 위도 범위 nyc_min_latitude = 40.63 nyc_max_latitude = 40.85 # 뉴욕시 내 위치로 한정 for long in ['pickup_longitude', 'dropoff_longitude']: df = df[(df[long] > nyc_min_longitude) & (df[long] < nyc_max_longitude)] for lat in ['pickup_latitude', 'dropoff_latitude']: df = df[(df[lat] > nyc_min_latitude) & (df[lat] < nyc_max_latitude)]
지금까지 진행한 데이터 전처리 작업은 다음과 같다. 먼저 결측값이 데이터셋의 0.001% 수준이고 훈련 데이터셋을 크게 줄이지 않으므로 제거했다. 그런 다음 fare_amount와 passenser_count 변수, 승차 및 하차 위치 정보에서 이상치를 발견했다. fare_amount 변수와 위치 정보의 이상치는 제거했다. passenser_count 변수의 경우 승차 인원이 0명인 로우를 최빈값인 1로 대체했다.