텍스트 통계량
마지막으로 텍스트를 이루는 성분에 대한 통계량을 확인해보겠습니다. 예를 들어 문장에서 불용어는 몇 개인지, 대문자는 몇 개인지, 단어는 몇 개인지 등 텍스트에 대한 통계량을 계산해볼 수 있습니다(그림 7-8 참고).
• num_words: 단어 개수
• num_unique_words: 고유 단어 개수
• num_chars: 문자 개수
• num_stopwords: 불용어 개수
• num_punctuation: 문장부호 개수
• num_words_upper: 모든 문자가 대문자인 단어 개수(ex. HAPPY)
• num_words_title: 타이틀 형식의 단어 개수
• mean_word_length: 단어의 문자 개수 평균
import string
# text statistic
# number of words in the text
df_train["num_words"] = df_train["comment_text"].apply(
lambda sen: len(str(sen).split())
)