데이터 프레임을 복사해서 df에 할당한다. 이렇게 하면 원본을 유지하고, 복사하지 않고 변수에 할당했을 때 참조점 때문에 오류가 나는 것을 방지할 수 있다.

    df = petition_remove_outlier.copy()

    describe()로 빈도수(count), 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max), 중앙값(50%), 사분위수 등을 확인한다.

    df.describe()

    실행 결과

     

    article_id

    answered

    votes

    count

    5109.000000

    5109.0

    5109.000000

    mean

    252208.264044

    0.0

    5674.709141

    std

    137485.014370

    0.0

    14334.261910

    min

    28.000000

    0.0

    501.000000

    25%

    145294.000000

    0.0

    771.000000

    50%

    242471.000000

    0.0

    1456.000000

    75%

    374255.000000

    0.0

    3794.000000

    max

    491954.000000

    0.0

    197343.000000

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.