데이터의 압축을 풀었으니 이제 데이터를 읽을 차례다. 지도학습은 정답이 있는 데이터를 학습해 정답이 없는 데이터를 예측한다. 따라서 학습(train)할 데이터와 이를 바탕으로 예측(test)할 데이터 세트1를 따로 읽어 오자.
파일을 읽는 방법은 여러 가지가 있지만 이 장에서는 손쉽게 데이터 프레임 형태로 데이터를 불러올 수 있는 판다스를 사용하겠다.
# 학습 / 시험 데이터 세트를 읽어서 train과 test 변수에 입력한다. train = pd.read_csv(os.path.join(base_path, "train_data.csv")) test = pd.read_csv(os.path.join(base_path, "test_data.csv")) train.shape, test.shape
실행 결과
((45654, 3), (9131, 2))
train.shape, test.shape로 확인해 보면 학습 세트(train)에는 45,654개의 데이터가 들어 있고, 시험 세트(test)에는 9,131개의 데이터가 들어 있다. 열은 3과 2로 출력되는데, 이 차이는 다음과 같이 학습 데이터와 시험 데이터에 모두 들어 있는 열(인덱스, 뉴스 타이틀(title))이 있고, 정답값에 해당하는 topic_idx 값은 시험 데이터 세트에 들어 있지 않기 때문이다.
• 학습 데이터: 인덱스, 뉴스 타이틀, topic_idx
• 시험 데이터: 인덱스, 뉴스 타이틀,