6 stop_words: 불용어 제거
문장에 자주 등장하지만 문장 안에서 큰 의미를 갖지 않는 단어를 불용어(stop words)라고 한다. 보통 ‘우리, 그, 은, 는, 그리고, 그래서’와 같은 대명사, 조사, 접속사 등을 불용어 리스트에 넣어서 stop_words로 처리하면 불용어를 제거할 수 있다.
이처럼 문장에서 빈번하게 등장하지만 사용하지 않을 단어를 제외하고 단어 가방을 만들어 보자. 다음은 max_features를 사용한 코드에 stop_words를 사용한 코드다.
stop_words=["코로나", "문의입니다"] # max_features: 개수만큼의 단어만 추출 cvect = CountVectorizer(ngram_range=(1, 3), min_df=1, max_df=1.0, max_features=20, stop_words=stop_words) dtm = cvect.fit_transform(corpus) vocab = cvect.get_feature_names_out() df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab) df_dtm