Gensim
Gensim은 파이썬에서 제공하는 워드투벡터(Word2Vec) 라이브러리입니다. 딥러닝 라이브러리는 아니지만 효율적이고 확장 가능하기 때문에 폭넓게 사용하고 있습니다.
다음은 Gensim에서 제공하는 주요 기능입니다.
Gensim을 사용하려면 다음 명령으로 먼저 설치해야 합니다. 9.2절에서 사용하므로 여기에서 설치합시다.
> pip install -U gensim)
사이킷런
사이킷런(scikit-learn)은 파이썬을 이용하여 문서를 전처리할 수 있는 라이브러리를 제공합니다. 특히 자연어 처리에서 특성 추출 용도로 많이 사용됩니다.
다음은 사이킷런에서 제공하는 주요 기능입니다.
• CountVectorizer: 텍스트에서 단어의 등장 횟수를 기준으로 특성을 추출합니다.
• Tfidfvectorizer: TF-IDF 값을 사용해서 텍스트에서 특성을 추출합니다.
• HashingVectorizer: CountVectorizer와 방법이 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간이 감소합니다.