더북(TheBook)

3.4 탐색적 데이터 분석

먼저 데이터를 살펴보자. 뉴욕시 택시 요금 데이터셋을 내려받는 방법은 책의 깃허브 저장소에서 찾을 수 있다(3.1절 참조). 하지만 2장과 달리, 5,500만 로우나 되는 원본 데이터셋을 가져오기는 어렵다. 평범한 PC로는 데이터셋 전체를 메모리에 올릴 수 없다. 대신 맨 처음 50만 로우만 가져오자. 물론 일부만 사용하면 부족할 수 있지만 데이터셋을 효율적으로 사용하려면 어쩔 수 없다.

판다스의 read_csv() 함수에 nrows를 지정해 데이터셋 중 일부를 가져올 수 있다.

import pandas as pd
 
df = pd.read_csv('NYC_taxi.csv', parse_dates=['pickup_datetime'], nrows=500000)

Note ≡

read_csv 메서드의 parse_dates 매개변수에 날짜 형식 칼럼을 지정하면 날짜와 시간 연산을 손쉽게 사용할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.