더북(TheBook)

LESSON 01
단어 가방 모형

단어 가방 모형이라는 표현은 1954년의 젤리그 해리스(Zellig Harris)의 논문에서 처음 사용됐다. 비교적 간단하게 단어를 벡터로 표현해 주어진 텍스트의 특징을 설명할 수 있다는 점은 널리 쓰일 만한 큰 장점이다. 다만, 단어의 빈도수는 같으나 단어의 순서가 중요한 문장이나, 부정 표현이 있는 문장 등에 의미를 세밀하게 구별하기 어렵다는 단점이 있다. 다음 예문을 보자.

 

쉽게 성공했다고 생각하지 않는다. (어렵게 성공했다)

성공하지 않았다고 생각하기 쉽다. (성공했다)

쉽게 생각해도 성공한 것은 아니다. (실패했다)

 

위 문장들은 ‘쉽다, 성공하다, 생각하다 + 부정 표현’의 어순 배열을 달리한 것인데, 단어의 위치에 따라 의미가 완전히 달라진다. 이와 같은 단점을 보완하기 위해 n-gram, min_df, max_df 등의 기법이 사용되는데 단어 가방 모형에 이어서 살펴볼 것이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.