머신 러닝을 위한 수학 with 파이썬, R: 1.4 데이터와 변수의 이해

값을 이렇게 행과 열로 잘 구분하여 배치한 형태의 데이터를 정형(structured) 데이터라 부른다. 이 정형 데이터에서 중요한 몇 가지를 더 살펴보자.

▼ 표 1-4 정형 데이터의 열

이름	성별	나이	거주지	직업	요금	데이터 사용량	휴대폰 선호도
AAA	F	20	서울	회사원	55,000	3GB	LG
BBB	F	19	인천	자영업	45,000	9GB	삼성
CCC	M	25	김포	회사원	35,000	1GB	샤오미
DDD	F	42	대전	회사원	75,000	4GB	LG
EEE	F	27	서울	자영업	65,000	2GB	소니
FFF	M	20	서울	회사원	55,000	3GB	LG
GGG	M	43	서울	자영업	45,000	9GB	삼성
HHH	M	25	대전	회사원	95,000	11GB	샤오미
III	F	42	김포	회사원	45,000	3GB	LG
JJJ	F	27	인천	자영업	45,000	4GB	소니

우선, 각 열은 같은 성격의 값을 나타낸다. 즉, 성별 열은 성별만, 요금 열은 사용 요금만 나타나게 되는데, 성별이나 요금은 사람에 따라 다르므로 고정되어 있는 값은 아니다. 이제부터 이런 각 열을 변수라 부르자. 표 1-4에서 노란 박스로 표시된 요금 열(변수)을 살펴보자. 이 열에는 모두 수치 값인 요금만 들어가는데, 이 값을 양적 자료(quantitative data) 또는 계측 자료(metric data)라고 한다. 이러한 수치 값은 사칙 연산이 가능하다는 특징이 있으며 그렇기에 합계, 평균, 최댓값, 최솟값, 분산 등으로 데이터를 요약하고 정리할 수 있다. 표 1-4에서 요금, 데이터 사용량, 나이가 바로 양적 자료에 해당된다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.