더북(TheBook)

이처럼 n의 개수에 따라 여러 토큰을 사용할 수 있는데, 토큰을 몇 개 사용할지는 ngram_range를 통해 정한다. 지정한 n개 숫자만큼의 토큰을 묶어서 사용한다. 예를 들어 기본값인 (1, 1)이라면 1개의 토큰을 사용하고 (2, 3)이라면 2~3개의 토큰을 사용한다. analyzer 설정에 따라 음절이나 단어, 어절 등의 단위에 따라 사용할 수 있다.

 

기본값은 (1, 1)

ngram_range(min_n, max_n)

min_n <= n <= max_n

· (1, 1)은 1 <= n <= 1

· (1, 2)은 1 <= n <= 2

· (2, 2)은 2 <= n <= 2

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.