더북(TheBook)

5 명사만 추출해 시각화

 

데이터 특성을 반영한 핵심 의미를 한눈에 보기 어려운 단어들이 먼저 보인다면, soynlp에서 제공하는 명사 추출기인 ‘LRNounExtractor’를 통해 명사만 추출할 수 있다.10

from soynlp.noun import LRNounExtractor

train() 함수는 WordExtractor로 단어를 미리 추출하고, 이 중에서 명사를 판단하는 과정을 진행한다.

%%time
noun_extractor = LRNounExtractor(verbose=True)
noun_extractor.train(content_text)
nouns = noun_extractor.extract()

실행 결과

[Noun Extractor] used default noun predictor; Sejong corpus predictor
[Noun Extractor] used noun_predictor_sejong
[Noun Extractor] All 2398 r features was loaded
[Noun Extractor] scanning was done (L,R) has (149911, 73537) tokens
[Noun Extractor] building L-R graph was done
[Noun Extractor] 25598 nouns are extracted
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.