연합뉴스 기사에서 제목만 추출했기 때문에 글자수 20~30개 사이에 빈도수가 몰려 있다. 단어 수도 6~8개 내외로 구성되어 있다.

    이제 describe()를 사용해 기술 통계량을 알아보자. 낱글자의 길이(len)와 단어 빈도(word_count), 유일 어절(unique_word_count, 중복을 제외한 단어의 빈도)을 빈도(count), 평균(mean), 표준편차(standard deviation) 외에도 최솟값(min), 최댓값(max), 그리고 사분위수에 해당하는 25%, 50%, 75% 범위를 표시해서 데이터 분포를 나타낼 수 있다.

    df[["len", "word_count", "unique_word_count"]].describe()

    실행 결과

     

    len

    word_count

    unique_word_count

    count

    54785.000000

    54785.000000

    54785.000000

    mean

    27.318846

    6.587880

    6.576198

    std

    4.947738

    1.471852

    1.465320

    min

    4.000000

    1.000000

    1.000000

    25%

    25.000000

    6.000000

    6.000000

    50%

    28.000000

    7.000000

    7.000000

    75%

    31.000000

    8.000000

    8.000000

    max

    44.000000

    13.000000

    13.000000

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.