plasma 수치가 높아질수록 당뇨인 경우가 많음을 알 수 있습니다. 마찬가지 방법으로, 이번에는 BMI를 기준으로 각각 정상과 당뇨가 어느 정도 비율로 분포하는지 살펴보겠습니다.
plt.hist(0], df.bmi[df.diabetes==1]], =30, ='barstacked', =['normal','diabetes']) plt.legend()=[df.bmi[df.diabetes==
그림 11-5 | BMI를 기준으로 정상과 당뇨 여부 표시
BMI가 높아질 경우 당뇨의 발병률도 함께 증가하는 추세를 볼 수 있습니다.
이렇게 결과에 미치는 영향이 큰 항목을 발견하는 것이 데이터 전처리 과정 중 하나입니다. 이 밖에도 데이터에 빠진 값이 있다면 평균이나 중앙값으로 대치하거나, 흐름에서 크게 벗어나는 이상치를 제거하는 과정 등이 데이터 전처리에 포함될 수 있습니다. 특히 SVM이나 랜덤 포레스트처럼 일반적인 머신 러닝에서는 데이터 전처리 과정이 성능 향상에 중요한 역할을 합니다.