더북(TheBook)

의미 없는 단어 제거하기

앞서 실행결과에서 확인했듯이 의미 없는 단어나 기호가 가장 많이 등장합니다. 문장 기호, 전치사, 관사 등은 단어장에 필요 없으니 이런 기호나 단어는 지워 주겠습니다. 필요 없는 단어를 하나의 리스트로 묶은 후, 이 단어들을 vocab 딕셔너리에서 삭제합니다.

졔졔쌤의 조언

자료실에 의미 없는 단어를 정리해 두었으니 그대로 복사해서 사용하면 됩니다.

meaningless = ['.', ',', '!', '?', 'the', 'he', 'and', 'to', 'a', 'of', 'was', 'in', 'had', 'for', 'it', 'that', 'but', 'as', 'with', 'at', 'i', 'into', 'be', 'this', 'me', 'from', 'then', 'him', 'his', 'her', 'she', 'they', 'them', 'you']
for word in meaningless:
    del vocab[word]

필요 없는 단어를 meaningless 리스트에 담습니다. 반복문을 활용해 meaningless 리스트의 단어를 차례대로 word에 넣은 후, delvocab 딕셔너리에서 삭제합니다.

필요 없는 단어를 모두 제거한 후 다시 값을 기준으로 키-값 쌍을 내림차순 정렬해 변수에 저장합니다.

import operator

vocab_final = sorted(vocab.items(), key=operator.itemgetter(1), reverse=True)
print(vocab_final)
실행결과
[('alibaba', 17), ('door', 8), ('oil', 8), ('one', 6), ('cassim', 6), ('took', 6), ('said', 6), ('out', 6), ('put', 6), ('open', 5), ('which', 5)…]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.