더북(TheBook)

데이터셋을 DataFrame에 넣고 행 몇 개를 살펴봅시다.

 

In [3]:

diabetes_df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
diabetes_df['target'] = diabetes.target
diabetes_df.head()

Out [3]:

age

sex

bmi

bp

s1

s2

s3

s4

s5

s6

target

0

0.04

0.05

0.06

0.02

- 0.04

- 0.03

- 0.04

0.00

0.02

- 0.02

151.00

1

0.00

- 0.04

- 0.05

- 0.03

- 0.01

- 0.02

0.07

- 0.04

- 0.07

- 0.10

75.00

2

0.09

0.05

0.04

- 0.01

- 0.05

- 0.03

- 0.03

0.00

0.00

- 0.03

141.00

3

- 0.09

- 0.04

- 0.01

- 0.04

0.01

0.02

- 0.04

0.03

0.02

- 0.01

206.00

4

0.01

- 0.04

- 0.04

0.02

0.00

0.02

0.01

0.00

- 0.03

- 0.05

135.00

나이나 성별처럼 범주형 값으로 보이는 이상한 값들을 제쳐 두고, 다른 열 중에 두 열은 무엇인지 알 것 같습니다. 나머지는 뭔가 전문적이고 설명이 더 필요해 보이는군요.

bmi는 체질량 지수(body mass index)로, 키와 몸무게를 사용해서 체지방 비율을 근사합니다.

bp는 혈압입니다.

s1~s6은 여섯 개의 혈청 측정치입니다.

타깃은 환자의 질병 진행 정도를 나타내는 수치형 점수입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.