데이터셋을 DataFrame에 넣고 행 몇 개를 살펴봅시다.
In [3]:
diabetes_df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) diabetes_df['target'] = diabetes.target diabetes_df.head()
Out [3]:
age |
sex |
bmi |
bp |
s1 |
s2 |
s3 |
s4 |
s5 |
s6 |
target |
|
0 |
0.04 |
0.05 |
0.06 |
0.02 |
- 0.04 |
- 0.03 |
- 0.04 |
0.00 |
0.02 |
- 0.02 |
151.00 |
1 |
0.00 |
- 0.04 |
- 0.05 |
- 0.03 |
- 0.01 |
- 0.02 |
0.07 |
- 0.04 |
- 0.07 |
- 0.10 |
75.00 |
2 |
0.09 |
0.05 |
0.04 |
- 0.01 |
- 0.05 |
- 0.03 |
- 0.03 |
0.00 |
0.00 |
- 0.03 |
141.00 |
3 |
- 0.09 |
- 0.04 |
- 0.01 |
- 0.04 |
0.01 |
0.02 |
- 0.04 |
0.03 |
0.02 |
- 0.01 |
206.00 |
4 |
0.01 |
- 0.04 |
- 0.04 |
0.02 |
0.00 |
0.02 |
0.01 |
0.00 |
- 0.03 |
- 0.05 |
135.00 |
나이나 성별처럼 범주형 값으로 보이는 이상한 값들을 제쳐 두고, 다른 열 중에 두 열은 무엇인지 알 것 같습니다. 나머지는 뭔가 전문적이고 설명이 더 필요해 보이는군요.
• bmi는 체질량 지수(body mass index)로, 키와 몸무게를 사용해서 체지방 비율을 근사합니다.
• bp는 혈압입니다.
• s1~s6은 여섯 개의 혈청 측정치입니다.
• 타깃은 환자의 질병 진행 정도를 나타내는 수치형 점수입니다.