먼저 필요한 모듈을 임포트한다.
from utils import preprocess, feature_engineer import pandas as pd import numpy as np from sklearn.preprocessing import scale from sklearn.model_selection import train_test_split from keras.models import Sequential from keras.layers import Dense from sklearn.metrics import mean_squared_error
다음으로 데이터 파일의 첫 50만 로우를 로드한다.
df = pd.read_csv('NYC_taxi.csv', parse_dates=['pickup_datetime'], nrows=500000)
앞서 정의한 헬퍼 함수를 사용해 데이터 전처리와 특징 공학 과정을 거친다.
df = preprocess(df) df = feature_engineer(df)