더북(TheBook)

결과 그림 중 왼쪽 2차원 버블 차트는 t-SNE에 의해 변환된 토픽들이다. 오른쪽 막대그래프는 해당 토픽을 대표하는 단어들이다. 이 단어들은 relevance라는 measure에 의해 대표되며, relevance는 주제(Topic) 안에 있는 단어(Term)를 평가하는 기준이 된다.

앞에서 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩으로 벡터화하는 실습을 진행했다. 이를 위해 TfidfVectorizer5를 불러왔는데, 여기서도 복습 겸 다시 한번 사용해 보자. TfidfVectorizerCountVectorizer()에서도 사용할 수 있는 주요 매개 변수는 다음과 같다.

 

norm='l2': 각 문서의 피처 벡터를 어떻게 벡터 정규화할지 결정

· L2: 벡터의 각 원소의 제곱의 합이 1이 되도록 만드는 것. 기본값

· L1: 벡터의 각 원소의 절댓값의 합이 1이 되도록 크기를 조절

smooth_idf=False: 피처를 만들 때 0으로 나오는 항목에 대해 작은 값을 더해서(스무딩해서) 만들지 또는 그대로 만들지 결정

sublinear_tf=False: 단어의 등장 횟수에 비례하여 tf 값이 증가한다.

use_idf=True: TF-IDF를 사용해 피처를 만들 것인지 아니면 단어 빈도 자체를 사용할 것인지 결정

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.