1.2.1 특성
조금 더 구체적으로 살펴봅시다. 사람의 의료 정보 데이터셋에는 환자의 키, 몸무게, 성별, 나이, 흡연 기록, 수축기 혈압, 이완기 혈압, 평시 심박수 등 정보가 담겨 있습니다. 데이터셋에 담긴 여러 사람의 기록이 우리가 사용할 사례입니다. 이 데이터셋에 담긴 생물학적, 인구통계학적 특성이 다룰 속성들입니다.
이 데이터는 표 1-1에 깔끔하게 정리되어 있습니다.
▼ 표 1-1 간단한 의료 정보 데이터 표다. 각 행은 사례이며, 각 열은 주어진 특성 값이다. 각 속성-값 쌍은 사례 특성을 표현한다
환자 번호 |
키 |
몸무게 |
성별 |
나이 |
흡연 여부 |
심박수 |
수축기 혈압 |
이완기 혈압 |
007 |
5'2" |
120 |
M |
11 |
no |
75 |
120 |
80 |
2139 |
5'4" |
140 |
F |
41 |
no |
65 |
115 |
75 |
1111 |
5'11" |
185 |
M |
41 |
no |
52 |
125 |
75 |
각 사례(행)는 표머리에 있는 속성들의 값으로 측정됩니다. 각 속성 값들은 열 단위로 기록되어 있습니다.
테이블의 행은 데이터셋의 사례(examples), 열은 특성(features)이라고 합니다. 특성은 속성 값 혹은 측정치입니다. 보통 ‘특성’과 ‘속성’은 동의어로 사용합니다. 둘 다 테이블의 열에 있는 값을 의미합니다. 어떤 사람들은 개념을 명확하게 구분하고 싶어 합니다. 무엇이 측정되는지, 값이 무엇인지, 측정된 값이 무엇인지 말입니다. 엄밀한 분류를 좋아하는 사람들을 위해 부연하자면, 첫 번째는 속성이고 두 번째는 값이며 마지막 것은 특성입니다. 특성은 속성과 값이 묶인 것입니다. 이 책에서는 데이터셋의 열을 특성이라고 하겠습니다. 무엇이 측정되는지 엄밀하게 표현할 때는 속성이라는 표현을 쓰겠습니다. 머신 러닝을 공부하다 보면 특성과 속성을 같은 의미로 사용하는 것을 많이 볼 수 있습니다.