더북(TheBook)

Gensim

Gensim은 파이썬에서 제공하는 워드투벡터(Word2Vec) 라이브러리입니다. 딥러닝 라이브러리는 아니지만 효율적이고 확장 가능하기 때문에 폭넓게 사용하고 있습니다.

다음은 Gensim에서 제공하는 주요 기능입니다.

임베딩: 워드투벡터1

토픽 모델링2

LDA(Latent Dirichlet Allocation)3

Gensim을 사용하려면 다음 명령으로 먼저 설치해야 합니다. 9.2절에서 사용하므로 여기에서 설치합시다.

> pip install -U gensim

 

 

사이킷런

사이킷런(scikit-learn)은 파이썬을 이용하여 문서를 전처리할 수 있는 라이브러리를 제공합니다. 특히 자연어 처리에서 특성 추출 용도로 많이 사용됩니다.

다음은 사이킷런에서 제공하는 주요 기능입니다.

CountVectorizer: 텍스트에서 단어의 등장 횟수를 기준으로 특성을 추출합니다.

Tfidfvectorizer: TF-IDF 값을 사용해서 텍스트에서 특성을 추출합니다.

HashingVectorizer: CountVectorizer와 방법이 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간이 감소합니다.

 

 


  1 워드투벡터는 10장에서 자세히 다룹니다.

  2 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하는 데 사용되는 텍스트 마이닝 기법입니다. 한마디로 각 주제별로 단어 표현을 묶어 주는 것입니다.

  3 주어진 문서에 대해 각 문서에 어떤 주제들이 존재하는지를 서술하는 확률적 토픽 모델 기법입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.