더북(TheBook)

topic_idx를 보면 총 7개의 뉴스 기사 범주로 구성되어 있다. 이제부터 뉴스 타이틀을 통해 이 범주값을 학습하고 예측하는 모델을 만들 것이다.

topic["topic"].values

실행 결과

array(['IT과학', '경제', '사회', '생활문화', '세계', '스포츠', '정치'], dtype=object)

 

head()로 데이터 전체의 구조를 살펴보자. head()의 괄호 안에 명시적으로 보려는 행의 개수를 넣지 않았으므로, 순서대로 처음부터 5개의 값을 확인할 수 있다.

train.head()

실행 결과

 

index

title

topic_idx

0

0

인천→핀란드 항공기 결항…휴가철 여행객 분통

4

1

1

실리콘밸리 넘어서겠다…구글 15조원 들여 美전역 거점화

4

2

2

이란 외무 긴장완화 해결책은 미국이 경제전쟁 멈추는 것

4

3

3

NYT 클린턴 측근韓기업 특수관계 조명…공과 사 맞물려종합

4

4

4

시진핑 트럼프에 중미 무역협상 조속 타결 희망

4

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.