더북(TheBook)

코드 9-16 단어 토큰화

from nltk import word_tokenize
sentence = "This book is for deep learning learners"
words = word_tokenize(sentence)
print(words)

다음은 단어 토큰화를 실행한 결과입니다.

['This', 'book', 'is', 'for', 'deep', 'learning', 'learners']

그렇다면 아포스트로피(')가 있는 문장은 어떻게 구분할까요?

아포스트로피에 대한 분류는 NLTK에서 제공하는 WordPunctTokenizer를 이용합니다.

예를 들어 it'sit, ', s로 구분했고, don'tdon, ', t로 구분합니다. 다음 코드는 아포스트로피가 포함된 문장을 구분합니다.

코드 9-17 아포스트로피가 포함된 문장에서 단어 토큰화

from nltk.tokenize import WordPunctTokenizer
sentence = "it's nothing that you don't already know except most people aren't aware of how their inner world works."
words = WordPunctTokenizer().tokenize(sentence)
print(words)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.