더북(TheBook)

잠시 시간을 내어 속성 값의 타입을 알아보겠습니다. 범주형 속성은 서로 다른 그룹의 사람들을 분리합니다. 인구 조사나 전염병 의료 조사에서 사용하는 성별 {남성, 여성}이나 인종 - 문화 - 유전적 기록 {아프리칸, 아시안, 유러피언, 아메리칸 원주민, 폴리네시안} 같은 속성을 예로 들 수 있습니다. 이러한 속성은 이산형, 범주형, 명목형 속성이라는 이름이 있습니다. 사회과학 수업에서 이러한 명칭들 때문에 머리가 지끈거린 경험이 있을 것이에요.

범주형 데이터에는 두 가지 중요한 점이 있습니다. 첫째, 이 값들은 이산적입니다. 보통 작은 수를 이용해서 여러 가지 옵션 중 하나를 나타냅니다. 여기에서 ‘작은’과 ‘여러 가지’라는 표현은 상대적이지 않나요? 맞습니다. 그냥 그러려니 하고 넘어가죠. 둘째, 이 속성에 담긴 정보는 두 가지 방법으로 기록할 수 있습니다.

단일 특성: 각 옵션별로 하나의 값을 가짐

다수 특성: 해당되는 특성에는 예 또는 참을 기록하고, 나머지에는 아니요 또는 거짓으로 표현

 

예시를 살펴봅시다. 범주형 정보를 다음과 같이 표현합니다.

이름

성별

마크

남성

여성

에단

남성

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.