Gensim
Gensim은 파이썬에서 제공하는 워드투벡터(Word2Vec) 라이브러리입니다. 딥러닝 라이브러리는 아니지만 효율적이고 확장 가능하기 때문에 폭넓게 사용하고 있습니다.
다음은 Gensim에서 제공하는 주요 기능입니다.
Gensim을 사용하려면 다음 명령으로 먼저 설치해야 합니다. 9.2절에서 사용하므로 여기에서 설치합시다.
> pip install -U gensim
사이킷런
사이킷런(scikit-learn)은 파이썬을 이용하여 문서를 전처리할 수 있는 라이브러리를 제공합니다. 특히 자연어 처리에서 특성 추출 용도로 많이 사용됩니다.
다음은 사이킷런에서 제공하는 주요 기능입니다.
• CountVectorizer: 텍스트에서 단어의 등장 횟수를 기준으로 특성을 추출합니다.
• Tfidfvectorizer: TF-IDF 값을 사용해서 텍스트에서 특성을 추출합니다.
• HashingVectorizer: CountVectorizer와 방법이 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간이 감소합니다.
1 워드투벡터는 10장에서 자세히 다룹니다.
2 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하는 데 사용되는 텍스트 마이닝 기법입니다. 한마디로 각 주제별로 단어 표현을 묶어 주는 것입니다.
3 주어진 문서에 대해 각 문서에 어떤 주제들이 존재하는지를 서술하는 확률적 토픽 모델 기법입니다.