모두의 한국어 텍스트 분석 with 파이썬: LESSON 04 데이터 불러오기

데이터의 압축을 풀었으니 이제 데이터를 읽을 차례다. 지도학습은 정답이 있는 데이터를 학습해 정답이 없는 데이터를 예측한다. 따라서 학습(train)할 데이터와 이를 바탕으로 예측(test)할 데이터 세트¹를 따로 읽어 오자.

파일을 읽는 방법은 여러 가지가 있지만 이 장에서는 손쉽게 데이터 프레임 형태로 데이터를 불러올 수 있는 판다스를 사용하겠다.

# 학습 / 시험 데이터 세트를 읽어서 train과 test 변수에 입력한다.
train = pd.read_csv(os.path.join(base_path, "train_data.csv"))
test = pd.read_csv(os.path.join(base_path, "test_data.csv"))
train.shape, test.shape

실행 결과

((45654, 3), (9131, 2))

train.shape, test.shape로 확인해 보면 학습 세트(train)에는 45,654개의 데이터가 들어 있고, 시험 세트(test)에는 9,131개의 데이터가 들어 있다. 열은 3과 2로 출력되는데, 이 차이는 다음과 같이 학습 데이터와 시험 데이터에 모두 들어 있는 열(인덱스, 뉴스 타이틀(title))이 있고, 정답값에 해당하는 topic_idx 값은 시험 데이터 세트에 들어 있지 않기 때문이다.

• 학습 데이터: 인덱스, 뉴스 타이틀, topic_idx

• 시험 데이터: 인덱스, 뉴스 타이틀,

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.