더북(TheBook)

df.head() 명령을 호출해 데이터셋의 맨 처음 다섯 줄을 살펴보자.

print(df.head())
092_1

▲ 그림 3-1 뉴욕시 택시 요금 데이터셋의 첫 다섯 줄 조회

데이터셋에 있는 칼럼을 하나씩 살펴보자.

key: pickup_datetime 칼럼과 값이 동일해 보인다. 아마 데이터베이스 테이블의 고유 ID로 사용했을 것이다. 이 칼럼은 제거해도 괜찮다.

fare_amount: 운행을 마친 후 지불한 요금. 모델이 예측할 목표 변수다.

pickup_datetime: 승객이 승차한 날짜(년, 월, 일)와 시각(시, 분, 초)

pickup_longitude, pickup_latitude: 승차 위치(위도, 경도)

dropoff_longitude, dropoff_latitude: 하차 위치(위도, 경도)

passenger_count: 승객 수

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.