캐글 메달리스트가 알려주는 캐글 노하우: 7.3 EDA

워드 클라우드

텍스트 데이터를 다루다 보면 수많은 데이터를 한눈에 확인하기가 쉽지 않습니다. 이 대회의 데이터는 많은 수의 텍스트 데이터와 텍스트의 특징을 나타내는 열로 구성되어 있습니다. 각 텍스트의 특징을 나타내는 열을 활용해서 특징별로 텍스트를 묶은 뒤에 집합이 어떤 단어로 구성되어 있는지 한눈에 볼 수 있다면, 데이터를 이해하는 데 도움이 많이 될 것입니다.

간단한 방법으로 이를 쉽게 만들어주는 라이브러리가 바로 워드 클라우드입니다. 워드 클라우드는 텍스트 데이터가 어떤 단어를 많이 사용하는지 한눈에 보여줍니다.

from wordcloud import WordCloud
import nltk
from nltk.corpus import stopwords

stop_words = stopwords.words("english")

>>> print(stop_words[:10])
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.