모두의 한국어 텍스트 분석 with 파이썬: 4 맷플롯립과 시본을 이용해 히스토그램으로 시각화

연합뉴스 기사에서 제목만 추출했기 때문에 글자수 20~30개 사이에 빈도수가 몰려 있다. 단어 수도 6~8개 내외로 구성되어 있다.

이제 describe()를 사용해 기술 통계량을 알아보자. 낱글자의 길이(len)와 단어 빈도(word_count), 유일 어절(unique_word_count, 중복을 제외한 단어의 빈도)을 빈도(count), 평균(mean), 표준편차(standard deviation) 외에도 최솟값(min), 최댓값(max), 그리고 사분위수에 해당하는 25%, 50%, 75% 범위를 표시해서 데이터 분포를 나타낼 수 있다.

df[["len", "word_count", "unique_word_count"]].describe()

실행 결과

	len	word_count	unique_word_count
count	54785.000000	54785.000000	54785.000000
mean	27.318846	6.587880	6.576198
std	4.947738	1.471852	1.465320
min	4.000000	1.000000	1.000000
25%	25.000000	6.000000	6.000000
50%	28.000000	7.000000	7.000000
75%	31.000000	8.000000	8.000000
max	44.000000	13.000000	13.000000

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.