LESSON 01
단어 가방 모형
단어 가방 모형이라는 표현은 1954년의 젤리그 해리스(Zellig Harris)의 논문에서 처음 사용됐다. 비교적 간단하게 단어를 벡터로 표현해 주어진 텍스트의 특징을 설명할 수 있다는 점은 널리 쓰일 만한 큰 장점이다. 다만, 단어의 빈도수는 같으나 단어의 순서가 중요한 문장이나, 부정 표현이 있는 문장 등에 의미를 세밀하게 구별하기 어렵다는 단점이 있다. 다음 예문을 보자.
• 쉽게 성공했다고 생각하지 않는다. (어렵게 성공했다)
• 성공하지 않았다고 생각하기 쉽다. (성공했다)
• 쉽게 생각해도 성공한 것은 아니다. (실패했다)
위 문장들은 ‘쉽다, 성공하다, 생각하다 + 부정 표현’의 어순 배열을 달리한 것인데, 단어의 위치에 따라 의미가 완전히 달라진다. 이와 같은 단점을 보완하기 위해 n-gram, min_df, max_df 등의 기법이 사용되는데 단어 가방 모형에 이어서 살펴볼 것이다.