더북(TheBook)

TfidfVectorizer()에서 사용할 수 있는 주요 매개 변수

norm='l2' 각 문서의 피처 벡터 정규화 방법

· L2: 벡터의 각 원소의 제곱의 합이 1이 되도록 만드는 것이 기본값

· L1: 벡터의 각 원소의 절댓값의 합이 1이 되도록 크기를 조절

smooth_idf=False

· True일 때는 피처를 만들 때 0으로 나오는 항목에 대해 작은 값을 더해서 피처를 만들고 False일 때는 더하지 않음

sublinear_tf=False

· True일 때는 로그 스케일링을 사용하고 False일 때는 단어 빈도를 그대로 사용

· 이상치가 데이터를 심하게 왜곡하는 경우 sublinear_tf=True로 두면 완화되는 효과를 얻을 수 있음

use_idf=True

· TF-IDF를 사용해 피처를 만들 것인지 아니면 단어 빈도 자체를 사용할 것인지를 결정

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.