다음은 단어를 2개까지 묶어서 단어 사전을 구성한 예다. 앞뒤 단어를 묶어서 단어 사전을 만들기 때문에 문장의 맥락을 더 잘 표현할 수 있다.
# ngram_range: 추출할 다른 단어 n-gram 또는 char n-gram에 대한 # n-값 범위의 하한 및 상한이다. 기본값은 (1, 1) # ngram_range = (1, 2) cvect = CountVectorizer(ram_range=(1, 2)) dtm = cvect.fit_transform(corpus)
실행 결과
<4x20 sparse matrix of type '<class 'numpy.int64'>' with 26 stored elements in Compressed Sparse Row format>