데이터 프레임을 복사해서 df에 할당한다. 이렇게 하면 원본을 유지하고, 복사하지 않고 변수에 할당했을 때 참조점 때문에 오류가 나는 것을 방지할 수 있다.
df = petition_remove_outlier.copy()
describe()로 빈도수(count), 평균(mean), 표준편차(std), 최솟값(min), 최댓값(max), 중앙값(50%), 사분위수 등을 확인한다.
df.describe()
실행 결과
|
article_id |
answered |
votes |
count |
5109.000000 |
5109.0 |
5109.000000 |
mean |
252208.264044 |
0.0 |
5674.709141 |
std |
137485.014370 |
0.0 |
14334.261910 |
min |
28.000000 |
0.0 |
501.000000 |
25% |
145294.000000 |
0.0 |
771.000000 |
50% |
242471.000000 |
0.0 |
1456.000000 |
75% |
374255.000000 |
0.0 |
3794.000000 |
max |
491954.000000 |
0.0 |
197343.000000 |