모두의 딥러닝 개정 3판: 1 텍스트의 토큰화

결과는 다음과 같이 출력됩니다.

실행 결과

원문:
 해보지 않으면 해낼 수 없다

토큰화:
 ['해보지', '않으면', '해낼', '수', '없다']

이렇게 주어진 텍스트를 단어 단위로 쪼개고 나면 이를 이용해 여러 가지를 할 수 있습니다. 예를 들어 각 단어가 몇 번이나 중복해서 쓰였는지 알 수 있습니다. 단어의 빈도수를 알면 텍스트에서 중요한 역할을 하는 단어를 파악할 수 있겠지요. 따라서 텍스트를 단어 단위로 쪼개는 것은 가장 많이 쓰이는 전처리 과정입니다.

Bag-of-Words라는 방법이 이러한 전처리를 일컫는 말인데, ‘단어의 가방(bag of words)’이라는 뜻 그대로, 같은 단어끼리 따로따로 가방에 담은 후 각 가방에 몇 개의 단어가 들어 있는지 세는 기법입니다.

예를 들어 다음과 같은 세 개의 문장이 있다고 합시다.

먼저 텍스트의 각 단어를 나누어 토큰화합니다.
텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.
토큰화한 결과는 딥러닝에서 사용할 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.