머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 1.2.2 타깃 값과 예측치

1.2.2 타깃 값과 예측치

우리가 모은 의료 정보 데이터 표의 속성 목록으로 되돌아갑시다. 이 데이터의 표머리 행은 키, 몸무게, 성별, 나이, 흡연 여부, 심박수, 수축기 혈압, 이완기 혈압입니다. 이러한 속성들은 심혈관 질환 가능성을 진단하려는 의료 서비스 제공 회사에 유용한 데이터가 될 수 있습니다. 그러려면 정보가 하나 더 필요합니다. 이 환자들에게 실제로 심장 질환이 있나요?

심혈관 질환 정보는 여러 가지 방법으로 기록할 수 있습니다.

• 환자에게 10년 내 심장 질환이 발생했는지: 예/아니요

• 환자에게 10년 내 레벨 X에 해당하는 심각한 심장 질환이 발생했는지: 해당 없음, 레벨 1, 레벨 2, 레벨 3

• 환자가 10년 내 심장 질환과 관련한 지표에서 이상 징후를 보였는지: 관상 동맥이 막힌 비율

우리가 가진 자원, 의료 관련 지식, 풀고자 하는 의료나 과학적 문제에 따라 이러한 질문에 대한 답을 고민해야 합니다. 시간은 매우 소중한 자원입니다. 결과를 얻는 데 10년이라는 세월을 기다릴 수 없을지도 모릅니다. 관상 동맥이 막힌 비율로 치명률을 판단할 수 있는 의학적 지식이 있을지도 모르죠. 이러한 조건에 따라 시간 지평선을 재조정하거나 다른 속성을 기록해야 할 수도 있습니다.

어떤 경우든지 구체적이고 측정 가능한 목표를 선택하고 다음 질문을 해야 합니다. “지금 가진 속성을 이용해서 미래에 얻을 결과를 예측할 수 있는 관계를 찾을 수 있는가?” 우리는 현재 알고 있는 정보를 바탕으로 10년 후 미래를 예측하려는 것입니다. 구체적인 결과를 목표 특성 혹은 간편하게 목표라고 합니다. 목표가 { 병듦, 건강함 } 혹은 { 해당 없음, 레벨 1, 레벨 2, 레벨 3 } 같은 범주형이라면, 관계를 학습하는 프로세스를 ‘분류’라고 합니다. 여기에서는 ‘분류’ 용어를 여러 가지 클래스나 카테고리 중에서 가능성이 높은 결과를 찾는다는 의미로 사용합니다. 초등학교 수업 시간에 보던 소수점 숫자 { 27.2, 42.0, 3.14159, -117.6 }처럼 목표가 부드럽게 변하는 수치형 값이라면, 이를 ‘회귀’라고 합니다. 왜 그런지 궁금하다면 구글에서 ‘Galton regression’을 검색하여 유래를 찾아보세요.

이제 도구 상자에 몇 가지 유용한 용어를 갖게 되었습니다. 그중 제일 중요한 것은 특성(features)입니다. 특성에는 범주형(categorical) 특성, 수치형(numerical) 특성, 타깃(target) 특성이 있습니다. 알려지지 않은 미래 결과를 예측하는 데 사용하는 관점을 강조하고 싶다면, 이들을 입력 특성(input features) 혹은 예측 특성(predictive features)이라고 합니다. 아직 다루지 않은 몇 가지 이슈가 있는데, 이 장 마무리에서 또 다른 용어도 간단히 소개하겠습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.