딥러닝 텐서플로 교과서: 9.2.2 토큰화

slide 1 of 18, currently active
slide 2 of 18
slide 3 of 18
slide 4 of 18
slide 5 of 18
slide 6 of 18
slide 7 of 18
slide 8 of 18
slide 9 of 18
slide 10 of 18
slide 11 of 18
slide 12 of 18
slide 13 of 18
slide 14 of 18
slide 15 of 18
slide 16 of 18
slide 17 of 18
slide 18 of 18

코드 9-16 단어 토큰화

from nltk import word_tokenize
sentence = "This book is for deep learning learners"
words = word_tokenize(sentence)
print(words)

다음은 단어 토큰화를 실행한 결과입니다.

['This', 'book', 'is', 'for', 'deep', 'learning', 'learners']

그렇다면 아포스트로피(')가 있는 문장은 어떻게 구분할까요?

아포스트로피에 대한 분류는 NLTK에서 제공하는 WordPunctTokenizer를 이용합니다.

예를 들어 it's는 it, ', s로 구분했고, don't는 don, ', t로 구분합니다. 다음 코드는 아포스트로피가 포함된 문장을 구분합니다.

코드 9-17 아포스트로피가 포함된 문장에서 단어 토큰화

from nltk.tokenize import WordPunctTokenizer
sentence = "it's nothing that you don't already know except most people aren't aware of how their inner world works."
words = WordPunctTokenizer().tokenize(sentence)
print(words)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.