값을 이렇게 행과 열로 잘 구분하여 배치한 형태의 데이터를 정형(structured) 데이터라 부른다. 이 정형 데이터에서 중요한 몇 가지를 더 살펴보자.
▼ 표 1-4 정형 데이터의 열
이름 |
성별 |
나이 |
거주지 |
직업 |
요금 |
데이터 사용량 |
휴대폰 선호도 |
AAA |
F |
20 |
서울 |
회사원 |
55,000 |
3GB |
LG |
BBB |
F |
19 |
인천 |
자영업 |
45,000 |
9GB |
삼성 |
CCC |
M |
25 |
김포 |
회사원 |
35,000 |
1GB |
샤오미 |
DDD |
F |
42 |
대전 |
회사원 |
75,000 |
4GB |
LG |
EEE |
F |
27 |
서울 |
자영업 |
65,000 |
2GB |
소니 |
FFF |
M |
20 |
서울 |
회사원 |
55,000 |
3GB |
LG |
GGG |
M |
43 |
서울 |
자영업 |
45,000 |
9GB |
삼성 |
HHH |
M |
25 |
대전 |
회사원 |
95,000 |
11GB |
샤오미 |
III |
F |
42 |
김포 |
회사원 |
45,000 |
3GB |
LG |
JJJ |
F |
27 |
인천 |
자영업 |
45,000 |
4GB |
소니 |
우선, 각 열은 같은 성격의 값을 나타낸다. 즉, 성별 열은 성별만, 요금 열은 사용 요금만 나타나게 되는데, 성별이나 요금은 사람에 따라 다르므로 고정되어 있는 값은 아니다. 이제부터 이런 각 열을 변수라 부르자. 표 1-4에서 노란 박스로 표시된 요금 열(변수)을 살펴보자. 이 열에는 모두 수치 값인 요금만 들어가는데, 이 값을 양적 자료(quantitative data) 또는 계측 자료(metric data)라고 한다. 이러한 수치 값은 사칙 연산이 가능하다는 특징이 있으며 그렇기에 합계, 평균, 최댓값, 최솟값, 분산 등으로 데이터를 요약하고 정리할 수 있다. 표 1-4에서 요금, 데이터 사용량, 나이가 바로 양적 자료에 해당된다.