더북(TheBook)

가설이 대체로 맞다는 것을 확인할 수 있다. 하지만 운행 거리와 관계없이 요금이 나온 경우도 있다. 차트 가운데에 수직선이 세 개 있으며, 이 40달러에서 60달러 사이의 점들은 운행 거리가 요금에 영향을 주지 않았다. 앞서 3.4.1절에서 살펴봤듯이 공항 근처에서 승차한 기록이 꽤 있었고, 공항을 오가는 택시는 52달러로 고정된 금액에 통행료를 더한 요금을 받는다. 이 정액 요금이 수직선이 생긴 이유일 것이다. 따라서 뉴욕시 주요 공항과 승차 및 하차 위치 사이의 거리를 새로운 특징 변수로 추가할 필요가 있다. 신경망은 이 특징 변수를 사용해 공항을 오고가는 정액 요금을 학습할 수 있다.

앞서 정의한 euc_distance 함수를 사용해 뉴욕시의 세 주요 공항과 승차 및 하차 위치 사이의 거리를 계산하자.

airports = {'JFK_Airport': (-73.78, 40.643), 'Laguardia_Airport': (-73.87, 40.77), 'Newark_Airport' : (-74.18, 40.69)}
 
for airport in airports:
    df['pickup_dist_' + airport] = euc_distance(df['pickup_latitude'], df['pickup_longitude'], airports[airport][1], airports[airport][0])
    df['dropoff_dist_' + airport] = euc_distance(df['dropoff_latitude'], df['dropoff_longitude'], airports[airport][1], airports[airport][0])
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.