모두의 한국어 텍스트 분석 with 파이썬: 2 단어 가방 모형 만들기

이제 예제를 통해 간단하게 CountVectorizer()의 동작 모습을 알아보자. 앞에서 만들어 둔 예문을 바탕으로 CountVectorizer()를 사용해 단어 가방 모형을 생성할 것이다. 코드는 다음과 같은 순서로 작동한다.

1 | 분석하려는 데이터를 corpus에 담는다.

2 | sklearn.feature_extraction.text에서 CountVectorizer()를 불러온다.

3 | fit()에 데이터(corpus)를 넣어 단어 사전을 학습시킨다.

4 | transform() 메서드를 통해 수치 행렬 형태로 변환한다.

먼저 데이터를 ‘corpus’에 담는다. 여기서는 임의로 네 문장을 담았다.

corpus = ["코로나 거리두기와 코로나 상생지원금 문의입니다.",
          "지하철 운행시간과 지하철 요금 문의입니다.",
          "지하철 승강장 문의입니다.",
          "택시 승강장 문의입니다."]
 
corpus

실행 결과

['코로나 거리두기와 코로나 상생지원금 문의입니다.',
 '지하철 운행시간과 지하철 요금 문의입니다.',
 '지하철 승강장 문의입니다.',
 '택시 승강장 문의입니다.']

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.