캐글 메달리스트가 알려주는 캐글 노하우: 7.3 EDA

노트북에 연결된 컴페티션 데이터셋의 위치를 확인하여 필요한 데이터셋을 로드합니다.

df_train = pd.read_csv(DATA_PATH + "train.csv")
df_test = pd.read_csv(DATA_PATH + "test.csv")

>>> print(f"Train 셋 데이터 크기 : {df_train.shape}")
>>> print(f"Test 셋 데이터 크기 : {df_test.shape}")
Train 셋 데이터 크기 : (1804874, 45)
Test 셋 데이터 크기 : (97320, 2)

Description에서 본 대로 훈련 셋은 180만 정도의 꽤 많은 행과 45개 서브 피처를 가지고 있습니다. 검증 셋은 훈련 셋에 비해 비교적 행이 적고 서브 피처는 없습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.