캐글 메달리스트가 알려주는 캐글 노하우: 7.3 EDA

텍스트 통계량

마지막으로 텍스트를 이루는 성분에 대한 통계량을 확인해보겠습니다. 예를 들어 문장에서 불용어는 몇 개인지, 대문자는 몇 개인지, 단어는 몇 개인지 등 텍스트에 대한 통계량을 계산해볼 수 있습니다(그림 7-8 참고).

• num_words: 단어 개수

• num_unique_words: 고유 단어 개수

• num_chars: 문자 개수

• num_stopwords: 불용어 개수

• num_punctuation: 문장부호 개수

• num_words_upper: 모든 문자가 대문자인 단어 개수(ex. HAPPY)

• num_words_title: 타이틀 형식의 단어 개수

• mean_word_length: 단어의 문자 개수 평균

import string

# text statistic
# number of words in the text
df_train["num_words"] = df_train["comment_text"].apply(
    lambda sen: len(str(sen).split())
)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.