더북(TheBook)

plasma 수치가 높아질수록 당뇨인 경우가 많음을 알 수 있습니다. 마찬가지 방법으로, 이번에는 BMI를 기준으로 각각 정상과 당뇨가 어느 정도 비율로 분포하는지 살펴보겠습니다.

plt.hist(x=[df.bmi[df.diabetes==0], df.bmi[df.diabetes==1]], bins=30, histtype='barstacked', label=['normal','diabetes'])
plt.legend()

그림 11-5 | BMI를 기준으로 정상과 당뇨 여부 표시

 

BMI가 높아질 경우 당뇨의 발병률도 함께 증가하는 추세를 볼 수 있습니다.

이렇게 결과에 미치는 영향이 큰 항목을 발견하는 것이 데이터 전처리 과정 중 하나입니다. 이 밖에도 데이터에 빠진 값이 있다면 평균이나 중앙값으로 대치하거나, 흐름에서 크게 벗어나는 이상치를 제거하는 과정 등이 데이터 전처리에 포함될 수 있습니다. 특히 SVM이나 랜덤 포레스트처럼 일반적인 머신 러닝에서는 데이터 전처리 과정이 성능 향상에 중요한 역할을 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.