더북(TheBook)

다음은 문장 토큰화를 실행한 결과입니다. 정확하게 문장 단위로 구분되는 것을 확인할 수 있습니다.

['Natural Language Processing, or NLP, is the process of extracting the meaning, or intent, behind human language.', 'In the field of Conversational artificial intelligence (AI), NLP allows machines and applications to understand the intent of human language inputs, and then generate appropriate responses, resulting in a natural conversation flow.'])

 

단어 토큰화

단어 토큰화는 다음과 같이 띄어쓰기를 기준으로 문장을 구분합니다.

▲ 그림 9-17 단어 토큰화

하지만 한국어는 띄어쓰기만으로 토큰을 구분하기 어려운 단점이 있습니다(한글 토큰화는 뒤에서 학습할 KoNLPy를 사용합니다). 역시 NLTK 라이브러리를 이용하여 주어진 문장을 단어 단위로 토큰화해 보겠습니다.

코드 9-16 단어 토큰화

from nltk import word_tokenize
sentence = "This book is for deep learning learners"
words = word_tokenize(sentence)
print(words)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.