더북(TheBook)

LESSON OT
들어가며

뉴스 데이터는 처음 텍스트를 분류해 보는 초보자가 다루기 적당하다. 이 장에서는 연합뉴스 타이틀을 주제별로 분류해 보겠다. 즉, 제목을 놓고 그 범주를 맞추는 과제다. 단어 가방 모형을 사용해 텍스트를 학습시키고 분류한 결과가 정답과 일치하는지 확인해 볼 것이다. 이를 위해 크게 다음 내용을 알아보자.

 

간단한 텍스트 분류를 통해 머신러닝 알고리즘이 학습할 수 있도록 단어를 수치화하는 방법

머신러닝 모델을 통해 학습 및 예측하는 방법

 

책에서 제공하는 코드를 가져와서 사용하려면 명시적으로 구글 드라이브와 코랩을 연동해야 하고, 연동했더라도 시간이 지나서 연결이 끊어지면 처음부터 다시 실행해야 한다. 하지만 연동하는 것은 어렵지 않다. 실행도 클릭만 하면 처음부터 다시 실행할 수 있다. 1장의 설명을 참고해 5장의 코드를 열고 본격적으로 시작해 보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.