7 analyzer: 문자, 단어 단위 설정
analyzer의 기본값은 'word'다. 즉, 기본적으로는 단어 단위로 단어 가방 모형을 만들지만 char, char_wb를 사용하면 문자(character) 단위로 단어 가방 모형을 만들 수 있다. 단어 n-gram으로 만들지, 문자 n-gram으로 만들지 설정하는 것이다. 옵션 'char_wb'는 단어 경계 내부의 텍스트에서만 문자 n-gram을 생성한다. 단어 가장자리의 n-gram은 공백으로 채워진다. 이는 띄어쓰기가 제대로 되어 있지 않은 문자 등에 사용할 수 있다.
이 책에서는 analyzer='char'를 사용해서 문장을 문자 단위로 끊어 볼 것이다. 음식이 너무 크면 조금씩 잘라서 먹을 수밖에 없는 것처럼 자연어 처리에서도 문서를 통으로 분석할 수는 없으므로, 문자나 단어처럼 명시적으로 보이는 단위를 기준 삼아 중심으로 잘라서 빈도를 구하거나 분석에 사용한다.