더북(TheBook)

7 analyzer: 문자, 단어 단위 설정

 

analyzer의 기본값은 'word'다. 즉, 기본적으로는 단어 단위로 단어 가방 모형을 만들지만 char, char_wb를 사용하면 문자(character) 단위로 단어 가방 모형을 만들 수 있다. 단어 n-gram으로 만들지, 문자 n-gram으로 만들지 설정하는 것이다. 옵션 'char_wb'는 단어 경계 내부의 텍스트에서만 문자 n-gram을 생성한다. 단어 가장자리의 n-gram은 공백으로 채워진다. 이는 띄어쓰기가 제대로 되어 있지 않은 문자 등에 사용할 수 있다.

이 책에서는 analyzer='char'를 사용해서 문장을 문자 단위로 끊어 볼 것이다. 음식이 너무 크면 조금씩 잘라서 먹을 수밖에 없는 것처럼 자연어 처리에서도 문서를 통으로 분석할 수는 없으므로, 문자나 단어처럼 명시적으로 보이는 단위를 기준 삼아 중심으로 잘라서 빈도를 구하거나 분석에 사용한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.