데이터도 마찬가지입니다. 생김새나 모양에 따라 형태를 분류할 수 있습니다. 요리 재료처럼 형태에 따라 쓰임도 달라집니다. 데이터 형태를 분류하는 기준은 책마다 조금씩 다르지만, 우리는 실무적인 데이터를 다루는 것이 목적이므로 실무에서 가장 많이 쓰는 변수를 사용하는 기준으로 정리하겠습니다. 전체적인 그림은 다음과 같습니다.
그림 4-31 | 변수 특징을 기준으로 정리한 데이터 형태 기준
앞선 예에서 익혔는지 여부에 따라 요리 재료를 분류했듯이, 데이터는 크게 범주형과 수치(숫자)형으로 구분할 수 있습니다. 범주형과 수치형을 구분하는 기준은 수량화 가능 여부입니다. 예를 들어 범주형 데이터는 성별(남/녀), 혈액형(A~O형) 등이 될 수 있고, 수치형 데이터는 매출 금액(100만 원, 1000만 원), 사람의 키(150~190cm) 등이 될 수 있습니다. 간단하게 범주형은 문자 특성을 갖고, 수치형은 숫자 특성을 갖는 데이터라고 생각하면 쉽습니다. 범주형과 수치형은 다시 세부 유형으로 분류할 수 있습니다. 예를 들어 범주형 데이터 중에서도 남/녀, 혈액형(A~O형) 등 서열(순서)이 없으면 명목형 데이터라고 하며 학점, 멤버십 등급처럼 서열이 있으면 서열형 데이터라고 합니다. 수치형 데이터도 측정 구간 여부에 따라 이산형과 연속형으로 구분할 수 있습니다.