1 텍스트의 토큰화
먼저 해야 할 일은 텍스트를 잘게 나누는 것입니다. 입력할 텍스트가 준비되면 이를 단어별, 문장별, 형태소별로 나눌 수 있는데, 이렇게 작게 나누어진 하나의 단위를 토큰(token)이라 고 합니다. 그래서 입력된 텍스트를 잘게 나누는 과정을 토큰화(tokenization)라고 합니다.
예를 들어 다음 문장이 주어졌다고 가정해 봅시다.
'해보지 않으면 해낼 수 없다'
케라스가 제공하는 text 모듈의 text_to_word_sequence() 함수를 사용하면 문장을 단어 단위로 쉽게 나눌 수 있습니다. 해당 함수를 불러와 전처리할 텍스트를 지정한 후 다음과 같이 토큰화합니다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence # 전처리할 텍스트를 정합니다. = '해보지 않으면 해낼 수 없다' # 해당 텍스트를 토큰화합니다. = text_to_word_sequence( ) print("\n원문:\n", text) print("\n토큰화:\n", result)