2.4 당뇨병 데이터셋
이번 프로젝트에서는 피마 인디언(Pima Indians) 당뇨 데이터셋을 사용한다. 이 데이터셋은 미국 국립보건원(NIH) 산하의 당뇨 소화 신장 질병 센터(National Institute of Diabetes and Digestive and Kidney Diseases)가 제공하고 캐글을 통해 공개한 것이다.
피마 인디언은 아리조나주에 살던 아메리카 원주민 부족이다. 이 부족은 유전적으로 당뇨에 취약해(즉, 유전적 소인(genetic disposition)을 지녀) 당뇨 연구에 자주 활용됐다. 피마 인디언은 오랜 기근을 견딜 수 있는 유전자를 지닌 것으로 알려져 있으며, 이 유전자는 섭취한 포도당과 탄수화물을 체내에 저장해 기근이 잦았던 환경에서 살아남을 수 있게 도왔다.
하지만 근대 사회로 접어든 후 가공 식품 위주로 식습관을 바꾸면서 피마 인디언의 제2형 당뇨 발병률이 증가했다. 지금도 제2형 당뇨 발병률은 전 세계에서 피마 인디언이 가장 높다. 그로 인해 피마 인디언을 대상으로 당뇨와 연관된 유전자를 찾으려는 연구도 활발하다.
피마 인디언 당뇨 데이터셋은 몇몇 여성 피마 인디언의 의료 진단 자료와 진단 후 5년 내 당뇨 발병 여부로 구성된다. 다음 2.5절에서 이 데이터셋에 탐색적 데이터 분석을 수행하고 흥미로운 통찰을 찾아보자.