더북(TheBook)

이를 좀 더 알아보기 쉽게 정리하면 그림 2-13과 같습니다.

 

그림 2-13 | 폐암 수술 환자의 의료 기록과 1년 후 사망 여부 데이터

 

가로줄 한 행이 한 사람의 환자로부터 기록된 정보를 의미합니다. 총 470행이므로 환자 470명에 대한 정보입니다.

한 행에는 17개의 숫자가 들어 있습니다. 이는 환자마다 17개의 정보를 순서에 맞추어 정리했다는 의미입니다. 앞의 정보 16개는 종양의 유형, 폐활량, 호흡 곤란 여부, 고통 정도, 기침, 흡연, 천식 여부 등 16가지 환자 상태를 조사해서 기록해 놓은 것입니다. 그리고 마지막 17번째 정보는 수술 1년 후의 생존 결과입니다. 1은 수술 후 생존했음을, 0은 수술 후 사망했음을 의미합니다. 이번 프로젝트의 목적은 1번째 항목부터 16번째 항목까지 이용해서 17번째 항목, 즉 수술 1년 후의 생존 또는 사망을 맞히는 것입니다. 1번째 항목부터 16번째 항목까지 속성(attribute)이라 하고, 정답에 해당하는 17번째 항목을 클래스(class)라고 합니다. 클래스는 앞서 이야기한 ‘이름표’에 해당됩니다. 딥러닝을 위해서는 속성과 클래스를 서로 다른 데이터셋1으로 지정해 주어야 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.