더북(TheBook)

값을 이렇게 행과 열로 잘 구분하여 배치한 형태의 데이터를 정형(structured) 데이터라 부른다. 이 정형 데이터에서 중요한 몇 가지를 더 살펴보자.

▼ 표 1-4 정형 데이터의 열

이름

성별

나이

거주지

직업

요금

데이터 사용량

휴대폰 선호도

AAA

F

20

서울

회사원

55,000

3GB

LG

BBB

F

19

인천

자영업

45,000

9GB

삼성

CCC

M

25

김포

회사원

35,000

1GB

샤오미

DDD

F

42

대전

회사원

75,000

4GB

LG

EEE

F

27

서울

자영업

65,000

2GB

소니

FFF

M

20

서울

회사원

55,000

3GB

LG

GGG

M

43

서울

자영업

45,000

9GB

삼성

HHH

M

25

대전

회사원

95,000

11GB

샤오미

III

F

42

김포

회사원

45,000

3GB

LG

JJJ

F

27

인천

자영업

45,000

4GB

소니

우선, 각 열은 같은 성격의 값을 나타낸다. 즉, 성별 열은 성별만, 요금 열은 사용 요금만 나타나게 되는데, 성별이나 요금은 사람에 따라 다르므로 고정되어 있는 값은 아니다. 이제부터 이런 각 열을 변수라 부르자. 표 1-4에서 노란 박스로 표시된 요금 열(변수)을 살펴보자. 이 열에는 모두 수치 값인 요금만 들어가는데, 이 값을 양적 자료(quantitative data) 또는 계측 자료(metric data)라고 한다. 이러한 수치 값은 사칙 연산이 가능하다는 특징이 있으며 그렇기에 합계, 평균, 최댓값, 최솟값, 분산 등으로 데이터를 요약하고 정리할 수 있다. 표 1-4에서 요금, 데이터 사용량, 나이가 바로 양적 자료에 해당된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.