df.head() 명령을 호출해 데이터셋의 맨 처음 다섯 줄을 살펴보자.

    print(df.head())
    092_1

    ▲ 그림 3-1 뉴욕시 택시 요금 데이터셋의 첫 다섯 줄 조회

    데이터셋에 있는 칼럼을 하나씩 살펴보자.

    key: pickup_datetime 칼럼과 값이 동일해 보인다. 아마 데이터베이스 테이블의 고유 ID로 사용했을 것이다. 이 칼럼은 제거해도 괜찮다.

    fare_amount: 운행을 마친 후 지불한 요금. 모델이 예측할 목표 변수다.

    pickup_datetime: 승객이 승차한 날짜(년, 월, 일)와 시각(시, 분, 초)

    pickup_longitude, pickup_latitude: 승차 위치(위도, 경도)

    dropoff_longitude, dropoff_latitude: 하차 위치(위도, 경도)

    passenger_count: 승객 수

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.