더북(TheBook)

3 n-gram: 앞뒤 단어 묶어서 사용

 

단어의 등장 빈도만으로 행렬을 구성해 앞뒤 맥락을 잃어버리는 단점을 보완하기 위해 앞뒤 단어를 묶어서 단어 사전을 구성하는 것이 n-gram 방식이다.

단어 가방 모형은 하나의 토큰을 사용하지만, n-gram은 연속적인 토큰 중 몇 개(n)를 하나의 단위로 볼 것인지 정할 수 있다(그림 4-2 참고). 이때 기준이 되는 토큰은 음소, 음절, 단어, 어절 등이 모두 구성 요소가 된다. 가령 띄어쓰기를 기본 단위로 하는 어절 단위의 토큰을 사용한다면,

 

uni-gram: 1어절이 하나의 구성 단위가 된다.

bi-gram: 2어절이 하나의 구성 단위가 된다.

tri-gram: 3어절이 하나의 구성 단위가 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.