topic_idx를 보면 총 7개의 뉴스 기사 범주로 구성되어 있다. 이제부터 뉴스 타이틀을 통해 이 범주값을 학습하고 예측하는 모델을 만들 것이다.
topic["topic"].values
실행 결과
array(['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치'], dtype=object)
head()로 데이터 전체의 구조를 살펴보자. head()의 괄호 안에 명시적으로 보려는 행의 개수를 넣지 않았으므로, 순서대로 처음부터 5개의 값을 확인할 수 있다.
train.head()
실행 결과
index |
title |
topic_idx |
|
0 |
0 |
인천→핀란드 항공기 결항…휴가철 여행객 분통 |
4 |
1 |
1 |
실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화 |
4 |
2 |
2 |
이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것 |
4 |
3 |
3 |
NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합 |
4 |
4 |
4 |
시진핑 트럼프에 중미 무역협상 조속 타결 희망 |
4 |