더북(TheBook)

다음과 같이 출력됩니다. 파이썬에서는 숫자를 0부터 세기 때문에 맨 첫 번째 행이 1이 아닌 0입니다.

 

 

pregnant

plasma

pressure

thickness

insulin

bmi

pedigree

age

diabetes

0

6

148

72

35

0

33.6

0.627

50

1

1

1

85

66

29

0

26.6

0.351

31

0

2

8

183

64

0

0

23.3

0.672

32

1

3

1

89

66

23

94

28.1

0.167

21

0

4

0

137

40

35

168

43.1

2.288

33

1

 

이제 정상과 당뇨 환자가 각각 몇 명씩인지 조사해 봅시다. 불러온 데이터 프레임의 특정 칼럼을 불러오려면 df[“칼럼명”]이라고 입력하면 됩니다. value_counts() 함수를 이용하면 각 컬럼의 값이 몇 개씩 있는지 알려 줍니다.

df["diabetes"].value_counts()

그러면 다음과 같은 정보가 화면에 출력됩니다. 정상인 500명과 당뇨병 환자 268명을 포함, 총 768개의 샘플이 준비되어 있는 것을 알 수 있습니다.

 

실행 결과

0    500
1    268
Name: diabetes, dtype: int64
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.