더북(TheBook)

불용어(stop words): 문장 내에서 많이 등장하는 단어입니다. 분석과 관계없으며, 자주 등장하는 빈도 때문에 성능에 영향을 미치므로 사전에 제거해 주어야 합니다. 불용어 예로 “a”, “the”, “she”, “he” 등이 있습니다.

어간 추출(stemming): 단어를 기본 형태로 만드는 작업입니다. 예를 들어 ‘consign’, ‘consigned’, ‘consigning’, ‘consignment’가 있을 때 기본 단어인 ‘consign’으로 통일하는 것이 어간 추출입니다.

 

▲ 그림 9-3 어간 추출

품사 태깅(part-of-speech tagging): 주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그(식별 정보)를 의미합니다.

 

▲ 그림 9-4 품사 태깅

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.