1 텍스트의 토큰화

     

    먼저 해야 할 일은 텍스트를 잘게 나누는 것입니다. 입력할 텍스트가 준비되면 이를 단어별, 문장별, 형태소별로 나눌 수 있는데, 이렇게 작게 나누어진 하나의 단위를 토큰(token)이라 고 합니다. 그래서 입력된 텍스트를 잘게 나누는 과정을 토큰화(tokenization)라고 합니다.

    예를 들어 다음 문장이 주어졌다고 가정해 봅시다.

    '해보지 않으면 해낼 수 없다'

    케라스가 제공하는 text 모듈의 text_to_word_sequence() 함수를 사용하면 문장을 단어 단위로 쉽게 나눌 수 있습니다. 해당 함수를 불러와 전처리할 텍스트를 지정한 후 다음과 같이 토큰화합니다.

    from tensorflow.keras.preprocessing.text import text_to_word_sequence
    
    # 전처리할 텍스트를 정합니다.
    text = '해보지 않으면 해낼 수 없다'
    
    # 해당 텍스트를 토큰화합니다.
    result = text_to_word_sequence(text)
    print("\n원문:\n", text)
    print("\n토큰화:\n", result)
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.