더북(TheBook)

다음은 단어 토큰화를 실행한 결과입니다.

['This', 'book', 'is', 'for', 'deep', 'learning', 'learners']

그렇다면 아포스트로피(')가 있는 문장은 어떻게 구분할까요?

아포스트로피에 대한 분류는 NLTK에서 제공하는 WordPunctTokenizer를 이용합니다.

예를 들어 it'sit, ', s로 구분했고, don'tdon, ', t로 구분합니다. 다음 코드는 아포스트로피가 포함된 문장을 구분합니다.

코드 9-17 아포스트로피가 포함된 문장에서 단어 토큰화

from nltk.tokenize import WordPunctTokenizer
sentence = "it's nothing that you don't already know except most people aren't aware of how their inner world works."
words = WordPunctTokenizer().tokenize(sentence)
print(words)

다음은 아포스트로피가 포함된 문장에서 단어 토큰화를 실행한 결과입니다.

['it', ''', 's', 'nothing', 'that', 'you', 'don', ''', 't', 'already', 'know', 'except', 'most', 'people', 'aren', ''', 't', 'aware', 'of', 'how', 'their', 'inner', 'world', 'works', '.']
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.