다음과 같이 출력됩니다. 파이썬에서는 숫자를 0부터 세기 때문에 맨 첫 번째 행이 1이 아닌 0입니다.
|
pregnant |
plasma |
pressure |
thickness |
insulin |
bmi |
pedigree |
age |
diabetes |
0 |
6 |
148 |
72 |
35 |
0 |
33.6 |
0.627 |
50 |
1 |
1 |
1 |
85 |
66 |
29 |
0 |
26.6 |
0.351 |
31 |
0 |
2 |
8 |
183 |
64 |
0 |
0 |
23.3 |
0.672 |
32 |
1 |
3 |
1 |
89 |
66 |
23 |
94 |
28.1 |
0.167 |
21 |
0 |
4 |
0 |
137 |
40 |
35 |
168 |
43.1 |
2.288 |
33 |
1 |
이제 정상과 당뇨 환자가 각각 몇 명씩인지 조사해 봅시다. 불러온 데이터 프레임의 특정 칼럼을 불러오려면 df[“칼럼명”]이라고 입력하면 됩니다. value_counts() 함수를 이용하면 각 컬럼의 값이 몇 개씩 있는지 알려 줍니다.
df["diabetes"].value_counts()
그러면 다음과 같은 정보가 화면에 출력됩니다. 정상인 500명과 당뇨병 환자 268명을 포함, 총 768개의 샘플이 준비되어 있는 것을 알 수 있습니다.
실행 결과
0 500 1 268 Name: diabetes, dtype: int64