워드 클라우드
텍스트 데이터를 다루다 보면 수많은 데이터를 한눈에 확인하기가 쉽지 않습니다. 이 대회의 데이터는 많은 수의 텍스트 데이터와 텍스트의 특징을 나타내는 열로 구성되어 있습니다. 각 텍스트의 특징을 나타내는 열을 활용해서 특징별로 텍스트를 묶은 뒤에 집합이 어떤 단어로 구성되어 있는지 한눈에 볼 수 있다면, 데이터를 이해하는 데 도움이 많이 될 것입니다.
간단한 방법으로 이를 쉽게 만들어주는 라이브러리가 바로 워드 클라우드입니다. 워드 클라우드는 텍스트 데이터가 어떤 단어를 많이 사용하는지 한눈에 보여줍니다.
from wordcloud import WordCloud
import nltk
from nltk.corpus import stopwords
stop_words = stopwords.words("english")
>>> print(stop_words[:10])
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]