df.head() 명령을 호출해 데이터셋의 맨 처음 다섯 줄을 살펴보자.
print(df.head())
▲ 그림 3-1 뉴욕시 택시 요금 데이터셋의 첫 다섯 줄 조회
데이터셋에 있는 칼럼을 하나씩 살펴보자.
• key: pickup_datetime 칼럼과 값이 동일해 보인다. 아마 데이터베이스 테이블의 고유 ID로 사용했을 것이다. 이 칼럼은 제거해도 괜찮다.
• fare_amount: 운행을 마친 후 지불한 요금. 모델이 예측할 목표 변수다.
• pickup_datetime: 승객이 승차한 날짜(년, 월, 일)와 시각(시, 분, 초)
• pickup_longitude, pickup_latitude: 승차 위치(위도, 경도)
• dropoff_longitude, dropoff_latitude: 하차 위치(위도, 경도)
• passenger_count: 승객 수