Gensim

    Gensim은 파이썬에서 제공하는 워드투벡터(Word2Vec) 라이브러리입니다. 딥러닝 라이브러리는 아니지만 효율적이고 확장 가능하기 때문에 폭넓게 사용하고 있습니다.

    다음은 Gensim에서 제공하는 주요 기능입니다.

    임베딩: 워드투벡터2

    토픽 모델링3

    LDA(Latent Dirichlet Allocation)4

    Gensim을 사용하려면 다음 명령으로 먼저 설치해야 합니다. 9.2절에서 사용하므로 여기에서 설치합시다.

    > pip install -U gensim)

     

    사이킷런

    사이킷런(scikit-learn)은 파이썬을 이용하여 문서를 전처리할 수 있는 라이브러리를 제공합니다. 특히 자연어 처리에서 특성 추출 용도로 많이 사용됩니다.

    다음은 사이킷런에서 제공하는 주요 기능입니다.

    CountVectorizer: 텍스트에서 단어의 등장 횟수를 기준으로 특성을 추출합니다.

    Tfidfvectorizer: TF-IDF 값을 사용해서 텍스트에서 특성을 추출합니다.

    HashingVectorizer: CountVectorizer와 방법이 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간이 감소합니다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.