한 행에는 17개의 숫자가 들어 있습니다. 이는 환자마다 17개의 정보를 순서에 맞추어 정리했다는 의미입니다. 앞의 정보 16개는 종양의 유형, 폐활량, 호흡 곤란 여부, 고통 정도, 기침, 흡연, 천식 여부 등 16가지 환자 상태를 조사해서 기록해 놓은 것입니다. 그리고 마지막 17번째 정보는 수술 1년 후의 생존 결과입니다. 1은 수술 후 생존했음을, 0은 수술 후 사망했음을 의미합니다. 이번 프로젝트의 목적은 1번째 항목부터 16번째 항목까지 이용해서 17번째 항목, 즉 수술 1년 후의 생존 또는 사망을 맞히는 것입니다. 1번째 항목부터 16번째 항목까지 속성(attribute)이라 하고, 정답에 해당하는 17번째 항목을 클래스(class)라고 합니다. 클래스는 앞서 이야기한 ‘이름표’에 해당됩니다. 딥러닝을 위해서는 속성과 클래스를 서로 다른 데이터셋1으로 지정해 주어야 합니다.
먼저 속성으로 이루어진 데이터셋을 X라는 이름으로 만들어 줍니다.
X = Data_set[:,0:16]
TIP
파이썬은 숫자를 1부터 세지 않고 0부터 셉니다. 범위를 정할 경우 콜론(:) 앞의 숫자는 범위의 맨 처음을 의미하고, 콜론(:) 뒤의 숫자는 이 숫자가 가리키는 위치 ‘바로 앞’이 범위의 마지막이라는 의미입니다. 쉼표(,)를 기준으로 앞은 행(샘플), 뒤는 열(속성)의 범위가 입력됩니다. 예를 들어 [:,0:16]은 모든 행의 1번째 열부터 16번째 열까지 가져오라는 의미가 됩니다.