더북(TheBook)

9.1.1 자연어 처리 용어 및 과정

자연어 처리 관련 용어와 처리 과정을 먼저 알아보겠습니다.

 

자연어 처리 관련 용어

말뭉치(corpus(코퍼스)): 자연어 처리에서 모델을 학습시키기 위한 데이터이며, 자연어 연구를 위해 특정한 목적에서 표본을 추출한 집합입니다.

 

▲ 그림 9-2 말뭉치(corpus)

토큰(token): 자연어 처리를 위한 문서는 작은 단위로 나누어야 하는데, 이때 문서를 나누는 단위가 토큰입니다. 문자열을 토큰으로 나누는 작업을 토큰 생성(tokenizing)이라고 하며, 문자열을 토큰으로 분리하는 함수를 토큰 생성 함수라고 합니다.

토큰화(tokenization): 텍스트를 문장이나 단어로 분리하는 것을 의미합니다. 토큰화 단계를 마치면 텍스트가 단어 단위로 분리됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.