더북(TheBook)

점차트 가장자리에 있는 점들은 모두 이상치다. 가장 큰 위도 값은 1000을 넘고, 가장 작은 값은 -3000을 넘는다. 하지만 지리 좌표 체계에는 이렇게 큰 위도 경도 값이 없다. 이 값을 제거하자.

# 뉴욕시 경도 범위
nyc_min_longitude = -74.05
nyc_max_longitude = -73.75
 
# 뉴욕시 위도 범위
nyc_min_latitude = 40.63
nyc_max_latitude = 40.85
 
# 뉴욕시 내 위치로 한정
for long in ['pickup_longitude', 'dropoff_longitude']:
    df = df[(df[long] > nyc_min_longitude) & (df[long] < nyc_max_longitude)]
 
for lat in ['pickup_latitude', 'dropoff_latitude']:
    df = df[(df[lat] > nyc_min_latitude) & (df[lat] < nyc_max_latitude)]

지금까지 진행한 데이터 전처리 작업은 다음과 같다. 먼저 결측값이 데이터셋의 0.001% 수준이고 훈련 데이터셋을 크게 줄이지 않으므로 제거했다. 그런 다음 fare_amountpassenser_count 변수, 승차 및 하차 위치 정보에서 이상치를 발견했다. fare_amount 변수와 위치 정보의 이상치는 제거했다. passenser_count 변수의 경우 승차 인원이 0명인 로우를 최빈값인 1로 대체했다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.