더북(TheBook)

이제 준비된 데이터의 내용을 들여다보겠습니다. 주피터 노트북을 통해 열어 보면 모두 768명의 인디언으로부터 여덟 개의 정보와 한 개의 클래스를 추출한 데이터임을 알 수 있습니다.

 

 

샘플 수: 768

속성: 8

- 정보 1(pregnant): 과거 임신 횟수

- 정보 2(plasma): 포도당 부하 검사 2시간 후 공복 혈당 농도(mm Hg)

- 정보 3(pressure): 확장기 혈압(mm Hg)

- 정보 4(thickness): 삼두근 피부 주름 두께(mm)

- 정보 5(insulin): 혈청 인슐린(2-hour, mu U/ml)

- 정보 6(BMI): 체질량 지수(BMI, weight in kg/(height in m)2)

- 정보 7(pedigree): 당뇨병 가족력

- 정보 8(age): 나이

클래스: 당뇨(1), 당뇨 아님(0)

그림 11-2 | 피마 인디언 데이터의 샘플, 속성, 클래스 구분

 

데이터의 각 정보가 의미하는 의학, 생리학 배경지식을 모두 알 필요는 없지만, 딥러닝을 구동하려면 반드시 속성과 클래스를 먼저 구분해야 합니다. 또한, 모델의 정확도를 향상시키기 위해서는 데이터를 추가하거나 재가공해야 할 수도 있습니다. 따라서 데이터의 내용과 구조를 파악하는 것이 중요합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.