결과는 다음과 같이 출력됩니다.
실행 결과
원문: 해보지 않으면 해낼 수 없다 토큰화: ['해보지', '않으면', '해낼', '수', '없다']
이렇게 주어진 텍스트를 단어 단위로 쪼개고 나면 이를 이용해 여러 가지를 할 수 있습니다. 예를 들어 각 단어가 몇 번이나 중복해서 쓰였는지 알 수 있습니다. 단어의 빈도수를 알면 텍스트에서 중요한 역할을 하는 단어를 파악할 수 있겠지요. 따라서 텍스트를 단어 단위로 쪼개는 것은 가장 많이 쓰이는 전처리 과정입니다.
Bag-of-Words라는 방법이 이러한 전처리를 일컫는 말인데, ‘단어의 가방(bag of words)’이라는 뜻 그대로, 같은 단어끼리 따로따로 가방에 담은 후 각 가방에 몇 개의 단어가 들어 있는지 세는 기법입니다.
예를 들어 다음과 같은 세 개의 문장이 있다고 합시다.
먼저 텍스트의 각 단어를 나누어 토큰화합니다. 텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다. 토큰화한 결과는 딥러닝에서 사용할 수 있습니다.