더북(TheBook)

다음은 단어를 2개까지 묶어서 단어 사전을 구성한 예다. 앞뒤 단어를 묶어서 단어 사전을 만들기 때문에 문장의 맥락을 더 잘 표현할 수 있다.

# ngram_range: 추출할 다른 단어 n-gram 또는 char n-gram에 대한 
# n-값 범위의 하한 및 상한이다. 기본값은 (1, 1)
# ngram_range = (1, 2)
cvect = CountVectorizer(ram_range=(1, 2))
dtm = cvect.fit_transform(corpus)

실행 결과

<4x20 sparse matrix of type '<class 'numpy.int64'>'
 with 26 stored elements in Compressed Sparse Row format>
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.