더북(TheBook)

9.2.2 토큰화

토큰화(tokenization)는 주어진 텍스트를 단어/문자 단위로 자르는 것을 의미합니다. 따라서 토큰화는 문장 토큰화와 단어 토큰화로 구분됩니다. 예를 들어 ‘A cat is on the sofa’라는 문장이 있을 때 단어 토큰화를 진행하면 각각의 단어인 ‘A’, ‘cat’, ‘is’, ‘on’, ‘the’, ‘sofa’로 분리됩니다.

 

문장 토큰화

주어진 문장을 토큰화한다는 것은 마침표(.), 느낌표(!), 물음표(?) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것입니다.

NLTK를 이용하여 문장 토큰화를 구현해 보겠습니다.

코드 9-15 문장 토큰화

from nltk import sent_tokenize
text_sample = 'Natural Language Processing, or NLP, is the process of extracting the meaning, or intent, behind human language. In the field of Conversational artificial intelligence (AI), NLP allows machines and applications to understand the intent of human language inputs, and then generate appropriate responses, resulting in a natural conversation flow.'
tokenized_sentences = sent_tokenize(text_sample)
print(tokenized_sentences))
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.