더북(TheBook)

1 텍스트의 토큰화

 

먼저 해야 할 일은 텍스트를 잘게 나누는 것입니다. 입력할 텍스트가 준비되면 이를 단어별, 문장별, 형태소별로 나눌 수 있는데, 이렇게 작게 나누어진 하나의 단위를 토큰(token)이라 고 합니다. 그래서 입력된 텍스트를 잘게 나누는 과정을 토큰화(tokenization)라고 합니다.

예를 들어 다음 문장이 주어졌다고 가정해 봅시다.

'해보지 않으면 해낼 수 없다'

케라스가 제공하는 text 모듈의 text_to_word_sequence() 함수를 사용하면 문장을 단어 단위로 쉽게 나눌 수 있습니다. 해당 함수를 불러와 전처리할 텍스트를 지정한 후 다음과 같이 토큰화합니다.

from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트를 정합니다.
text = '해보지 않으면 해낼 수 없다'

# 해당 텍스트를 토큰화합니다.
result = text_to_word_sequence(text)
print("\n원문:\n", text)
print("\n토큰화:\n", result)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.