더북(TheBook)

9.2 전처리

머신 러닝이나 딥러닝에서 텍스트 자체를 특성으로 사용할 수는 없습니다. 텍스트 데이터에 대한 전처리 작업이 필요한데, 이때 전처리를 위해 토큰화, 불용어 제거 및 어간 추출 등 작업이 필요합니다.

앞서도 살펴보았지만, 전처리 과정은 다음 그림과 같습니다.

▲ 그림 9-17 전처리 과정

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.