9.1.1 자연어 처리 용어 및 과정
자연어 처리 관련 용어와 처리 과정을 먼저 알아보겠습니다.
자연어 처리 관련 용어
• 말뭉치(corpus(코퍼스)): 자연어 처리에서 모델을 학습시키기 위한 데이터이며, 자연어 연구를 위해 특정한 목적에서 표본을 추출한 집합입니다.
▲ 그림 9-2 말뭉치(corpus)
• 토큰(token): 자연어 처리를 위한 문서는 작은 단위로 나누어야 하는데, 이때 문서를 나누는 단위가 토큰입니다. 문자열을 토큰으로 나누는 작업을 토큰 생성(tokenizing)이라고 하며, 문자열을 토큰으로 분리하는 함수를 토큰 생성 함수라고 합니다.
• 토큰화(tokenization): 텍스트를 문장이나 단어로 분리하는 것을 의미합니다. 토큰화 단계를 마치면 텍스트가 단어 단위로 분리됩니다.
• 불용어(stop words): 문장 내에서 많이 등장하는 단어입니다. 분석과 관계없으며, 자주 등장하는 빈도 때문에 성능에 영향을 미치므로 사전에 제거해 주어야 합니다. 불용어 예로 “a”, “the”, “she”, “he” 등이 있습니다.