TfidfVectorizer()에서 사용할 수 있는 주요 매개 변수
• norm='l2' 각 문서의 피처 벡터 정규화 방법
· L2: 벡터의 각 원소의 제곱의 합이 1이 되도록 만드는 것이 기본값
· L1: 벡터의 각 원소의 절댓값의 합이 1이 되도록 크기를 조절
• smooth_idf=False
· True일 때는 피처를 만들 때 0으로 나오는 항목에 대해 작은 값을 더해서 피처를 만들고 False일 때는 더하지 않음
• sublinear_tf=False
· True일 때는 로그 스케일링을 사용하고 False일 때는 단어 빈도를 그대로 사용
· 이상치가 데이터를 심하게 왜곡하는 경우 sublinear_tf=True로 두면 완화되는 효과를 얻을 수 있음
• use_idf=True
· TF-IDF를 사용해 피처를 만들 것인지 아니면 단어 빈도 자체를 사용할 것인지를 결정