더북(TheBook)

연합뉴스 기사에서 제목만 추출했기 때문에 글자수 20~30개 사이에 빈도수가 몰려 있다. 단어 수도 6~8개 내외로 구성되어 있다.

이제 describe()를 사용해 기술 통계량을 알아보자. 낱글자의 길이(len)와 단어 빈도(word_count), 유일 어절(unique_word_count, 중복을 제외한 단어의 빈도)을 빈도(count), 평균(mean), 표준편차(standard deviation) 외에도 최솟값(min), 최댓값(max), 그리고 사분위수에 해당하는 25%, 50%, 75% 범위를 표시해서 데이터 분포를 나타낼 수 있다.

df[["len", "word_count", "unique_word_count"]].describe()

실행 결과

 

len

word_count

unique_word_count

count

54785.000000

54785.000000

54785.000000

mean

27.318846

6.587880

6.576198

std

4.947738

1.471852

1.465320

min

4.000000

1.000000

1.000000

25%

25.000000

6.000000

6.000000

50%

28.000000

7.000000

7.000000

75%

31.000000

8.000000

8.000000

max

44.000000

13.000000

13.000000

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.