이제 예제를 통해 간단하게 CountVectorizer()의 동작 모습을 알아보자. 앞에서 만들어 둔 예문을 바탕으로 CountVectorizer()를 사용해 단어 가방 모형을 생성할 것이다. 코드는 다음과 같은 순서로 작동한다.
1 | 분석하려는 데이터를 corpus에 담는다.
2 | sklearn.feature_extraction.text에서 CountVectorizer()를 불러온다.
3 | fit()에 데이터(corpus)를 넣어 단어 사전을 학습시킨다.
4 | transform() 메서드를 통해 수치 행렬 형태로 변환한다.
먼저 데이터를 ‘corpus’에 담는다. 여기서는 임의로 네 문장을 담았다.
corpus = ["코로나 거리두기와 코로나 상생지원금 문의입니다.", "지하철 운행시간과 지하철 요금 문의입니다.", "지하철 승강장 문의입니다.", "택시 승강장 문의입니다."] corpus
실행 결과
['코로나 거리두기와 코로나 상생지원금 문의입니다.', '지하철 운행시간과 지하철 요금 문의입니다.', '지하철 승강장 문의입니다.', '택시 승강장 문의입니다.']