더북(TheBook)

Gensim

Gensim은 파이썬에서 제공하는 워드투벡터(Word2Vec) 라이브러리입니다. 딥러닝 라이브러리는 아니지만 효율적이고 확장 가능하기 때문에 폭넓게 사용하고 있습니다.

다음은 Gensim에서 제공하는 주요 기능입니다.

임베딩: 워드투벡터2

토픽 모델링3

LDA(Latent Dirichlet Allocation)4

Gensim을 사용하려면 다음 명령으로 먼저 설치해야 합니다. 9.2절에서 사용하므로 여기에서 설치합시다.

> pip install -U gensim)

 

사이킷런

사이킷런(scikit-learn)은 파이썬을 이용하여 문서를 전처리할 수 있는 라이브러리를 제공합니다. 특히 자연어 처리에서 특성 추출 용도로 많이 사용됩니다.

다음은 사이킷런에서 제공하는 주요 기능입니다.

CountVectorizer: 텍스트에서 단어의 등장 횟수를 기준으로 특성을 추출합니다.

Tfidfvectorizer: TF-IDF 값을 사용해서 텍스트에서 특성을 추출합니다.

HashingVectorizer: CountVectorizer와 방법이 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간이 감소합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.