연합뉴스 기사에서 제목만 추출했기 때문에 글자수 20~30개 사이에 빈도수가 몰려 있다. 단어 수도 6~8개 내외로 구성되어 있다.
이제 describe()를 사용해 기술 통계량을 알아보자. 낱글자의 길이(len)와 단어 빈도(word_count), 유일 어절(unique_word_count, 중복을 제외한 단어의 빈도)을 빈도(count), 평균(mean), 표준편차(standard deviation) 외에도 최솟값(min), 최댓값(max), 그리고 사분위수에 해당하는 25%, 50%, 75% 범위를 표시해서 데이터 분포를 나타낼 수 있다.
df[["len", "word_count", "unique_word_count"]].describe()
실행 결과
|
len |
word_count |
unique_word_count |
count |
54785.000000 |
54785.000000 |
54785.000000 |
mean |
27.318846 |
6.587880 |
6.576198 |
std |
4.947738 |
1.471852 |
1.465320 |
min |
4.000000 |
1.000000 |
1.000000 |
25% |
25.000000 |
6.000000 |
6.000000 |
50% |
28.000000 |
7.000000 |
7.000000 |
75% |
31.000000 |
8.000000 |
8.000000 |
max |
44.000000 |
13.000000 |
13.000000 |