머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 1.2.1 특성

1.2.1 특성

조금 더 구체적으로 살펴봅시다. 사람의 의료 정보 데이터셋에는 환자의 키, 몸무게, 성별, 나이, 흡연 기록, 수축기 혈압, 이완기 혈압, 평시 심박수 등 정보가 담겨 있습니다. 데이터셋에 담긴 여러 사람의 기록이 우리가 사용할 사례입니다. 이 데이터셋에 담긴 생물학적, 인구통계학적 특성이 다룰 속성들입니다.

이 데이터는 표 1-1에 깔끔하게 정리되어 있습니다.

▼ 표 1-1 간단한 의료 정보 데이터 표다. 각 행은 사례이며, 각 열은 주어진 특성 값이다. 각 속성-값 쌍은 사례 특성을 표현한다

환자 번호	키	몸무게	성별	나이	흡연 여부	심박수	수축기 혈압	이완기 혈압
007	5'2"	120	M	11	no	75	120	80
2139	5'4"	140	F	41	no	65	115	75
1111	5'11"	185	M	41	no	52	125	75

각 사례(행)는 표머리에 있는 속성들의 값으로 측정됩니다. 각 속성 값들은 열 단위로 기록되어 있습니다.

테이블의 행은 데이터셋의 사례(examples), 열은 특성(features)이라고 합니다. 특성은 속성 값 혹은 측정치입니다. 보통 ‘특성’과 ‘속성’은 동의어로 사용합니다. 둘 다 테이블의 열에 있는 값을 의미합니다. 어떤 사람들은 개념을 명확하게 구분하고 싶어 합니다. 무엇이 측정되는지, 값이 무엇인지, 측정된 값이 무엇인지 말입니다. 엄밀한 분류를 좋아하는 사람들을 위해 부연하자면, 첫 번째는 속성이고 두 번째는 값이며 마지막 것은 특성입니다. 특성은 속성과 값이 묶인 것입니다. 이 책에서는 데이터셋의 열을 특성이라고 하겠습니다. 무엇이 측정되는지 엄밀하게 표현할 때는 속성이라는 표현을 쓰겠습니다. 머신 러닝을 공부하다 보면 특성과 속성을 같은 의미로 사용하는 것을 많이 볼 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.