노트북에 연결된 컴페티션 데이터셋의 위치를 확인하여 필요한 데이터셋을 로드합니다.
df_train = pd.read_csv(DATA_PATH + "train.csv")
df_test = pd.read_csv(DATA_PATH + "test.csv")
>>> print(f"Train 셋 데이터 크기 : {df_train.shape}")
>>> print(f"Test 셋 데이터 크기 : {df_test.shape}")
Train 셋 데이터 크기 : (1804874, 45)
Test 셋 데이터 크기 : (97320, 2)
Description에서 본 대로 훈련 셋은 180만 정도의 꽤 많은 행과 45개 서브 피처를 가지고 있습니다. 검증 셋은 훈련 셋에 비해 비교적 행이 적고 서브 피처는 없습니다.