점차트 가장자리에 있는 점들은 모두 이상치다. 가장 큰 위도 값은 1000을 넘고, 가장 작은 값은 -3000을 넘는다. 하지만 지리 좌표 체계에는 이렇게 큰 위도 경도 값이 없다. 이 값을 제거하자.

    # 뉴욕시 경도 범위
    nyc_min_longitude = -74.05
    nyc_max_longitude = -73.75
     
    # 뉴욕시 위도 범위
    nyc_min_latitude = 40.63
    nyc_max_latitude = 40.85
     
    # 뉴욕시 내 위치로 한정
    for long in ['pickup_longitude', 'dropoff_longitude']:
        df = df[(df[long] > nyc_min_longitude) & (df[long] < nyc_max_longitude)]
     
    for lat in ['pickup_latitude', 'dropoff_latitude']:
        df = df[(df[lat] > nyc_min_latitude) & (df[lat] < nyc_max_latitude)]

    지금까지 진행한 데이터 전처리 작업은 다음과 같다. 먼저 결측값이 데이터셋의 0.001% 수준이고 훈련 데이터셋을 크게 줄이지 않으므로 제거했다. 그런 다음 fare_amountpassenser_count 변수, 승차 및 하차 위치 정보에서 이상치를 발견했다. fare_amount 변수와 위치 정보의 이상치는 제거했다. passenser_count 변수의 경우 승차 인원이 0명인 로우를 최빈값인 1로 대체했다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.