더북(TheBook)

3.6.2 위치 특징 변수

앞서 3.6.2절에서 살펴봤듯이 예제 데이터셋에는 승차 및 하차 위치 정보가 있지만, 택시 요금에 가장 중요한 요소인 운행 거리 정보는 없다. 승차 위치와 하차 위치 정보를 사용해 거리를 계산하고 새로운 특징 변수로 추가하자.

운행 거리는 유클리드 거리(Euclidean distance)로 계산하자. 유클리드 거리는 다음 공식과 같이 두 점 사이의 직선 거리다.

두 점의 위도와 경도를 입력받아 유클리드 거리를 계산하는 함수를 정의하자.

def euc_distance(lat1, long1, lat2, long2):
    return(((lat1-lat2)**2 + (long1-long2)**2)**0.5)

이 함수를 DataFrame에 적용해 distance 칼럼을 추가할 수 있다.

df['distance'] = euc_distance(df['pickup_latitude'],
                              df['pickup_longitude'],
                              df['dropoff_latitude'],
                              df['dropoff_longitude'])
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.