더북(TheBook)

6 stop_words: 불용어 제거

 

문장에 자주 등장하지만 문장 안에서 큰 의미를 갖지 않는 단어를 불용어(stop words)라고 한다. 보통 ‘우리, 그, 은, 는, 그리고, 그래서’와 같은 대명사, 조사, 접속사 등을 불용어 리스트에 넣어서 stop_words로 처리하면 불용어를 제거할 수 있다.

이처럼 문장에서 빈번하게 등장하지만 사용하지 않을 단어를 제외하고 단어 가방을 만들어 보자. 다음은 max_features를 사용한 코드에 stop_words를 사용한 코드다.

stop_words=["코로나", "문의입니다"]
 
# max_features: 개수만큼의 단어만 추출
cvect = CountVectorizer(ngram_range=(1, 3), min_df=1, max_df=1.0, max_features=20, stop_words=stop_words)
dtm = cvect.fit_transform(corpus)
vocab = cvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.