이를 좀 더 알아보기 쉽게 정리하면 그림 2-13과 같습니다.
그림 2-13 | 폐암 수술 환자의 의료 기록과 1년 후 사망 여부 데이터
가로줄 한 행이 한 사람의 환자로부터 기록된 정보를 의미합니다. 총 470행이므로 환자 470명에 대한 정보입니다.
한 행에는 17개의 숫자가 들어 있습니다. 이는 환자마다 17개의 정보를 순서에 맞추어 정리했다는 의미입니다. 앞의 정보 16개는 종양의 유형, 폐활량, 호흡 곤란 여부, 고통 정도, 기침, 흡연, 천식 여부 등 16가지 환자 상태를 조사해서 기록해 놓은 것입니다. 그리고 마지막 17번째 정보는 수술 1년 후의 생존 결과입니다. 1은 수술 후 생존했음을, 0은 수술 후 사망했음을 의미합니다. 이번 프로젝트의 목적은 1번째 항목부터 16번째 항목까지 이용해서 17번째 항목, 즉 수술 1년 후의 생존 또는 사망을 맞히는 것입니다. 1번째 항목부터 16번째 항목까지 속성(attribute)이라 하고, 정답에 해당하는 17번째 항목을 클래스(class)라고 합니다. 클래스는 앞서 이야기한 ‘이름표’에 해당됩니다. 딥러닝을 위해서는 속성과 클래스를 서로 다른 데이터셋1으로 지정해 주어야 합니다.