다음은 단어 토큰화를 실행한 결과입니다.
['This', 'book', 'is', 'for', 'deep', 'learning', 'learners']
그렇다면 아포스트로피(')가 있는 문장은 어떻게 구분할까요?
아포스트로피에 대한 분류는 NLTK에서 제공하는 WordPunctTokenizer를 이용합니다.
예를 들어 it's는 it, ', s로 구분했고, don't는 don, ', t로 구분합니다. 다음 코드는 아포스트로피가 포함된 문장을 구분합니다.
코드 9-17 아포스트로피가 포함된 문장에서 단어 토큰화
from nltk.tokenize import WordPunctTokenizer
sentence = "it's nothing that you don't already know except most people aren't aware of how their inner world works."
words = WordPunctTokenizer().tokenize(sentence)
print(words)
다음은 아포스트로피가 포함된 문장에서 단어 토큰화를 실행한 결과입니다.
['it', ''', 's', 'nothing', 'that', 'you', 'don', ''', 't', 'already', 'know', 'except', 'most', 'people', 'aren', ''', 't', 'aware', 'of', 'how', 'their', 'inner', 'world', 'works', '.']