머신 러닝을 위한 수학 with 파이썬, R: 1.4 데이터와 변수의 이해

반면에 회색 박스로 표시된 성별 열을 살펴보면 값들이 수치 값이 아니라는 것을 알 수 있다. 성별 값으로 남자나 여자를 갖게 되며, M과 F로 표현하였다. 양적으로 측정되지 않는 이 값들은 질적 자료(qualitative data) 또는 비계측 자료(nonmetric data)라고 부른다. 이러한 질적 자료를 범주형 자료(categorical data)라고도 부르는데, 표 1-4에서 거주지나 성별이 여기에 해당된다. 범주형 자료에는 순서가 있을 수도, 없을 수도 있다. 거주지나 성별의 경우에는 그 값의 순서가 없는 반면, 예를 들어 수/우/미/양/가라는 값이 사용되면 이는 질적 자료임과 동시에 순서가 있는 값이 된다. 이처럼 순서가 있는 범주형 자료는 순서 자료(ordinal data)라 하고, 순서가 없는 범주형 자료를 명목 자료(nominal data)라고 한다. 단, 순서 자료라고 해도 사칙 연산을 할 수는 없는 점을 유의해야 한다.

즉, 정형 데이터는 여러 사람으로부터 여러 변수 값을 측정해 모아놓은 것이다. 이때 다음 표 1-5에서 노란 박스로 표시한 부분은 각 사람에 대한 값으로, 정형 데이터의 행을 관측치 또는 관측된 개체(observation, case, individual, object)라고 부른다. 또한, 회색 박스로 표시한 부분은 같은 기준으로 측정한 열을 개체의 속성으로 이해할 수 있는데, 앞서 살펴본 바와 같이 변수로 부르기도 한다. 변수(variable, attribute, feature, item)는 상황에 다른 이름을 가질 수 있고 의미도 조금씩 다르겠지만, 자료 형태로 봤을 때는 주로 열에 해당한다. 그리고 앞서 살펴본 바와 같이 변수에는 그 값에 따라 양적 변수와 질적 변수(명목 및 순서 변수) 등이 있다.

이때 우리가 주의 깊게 살펴봐야 하는 변수를 종속 변수(dependent variable, response variable, target variable)라고 하며, 통칭해서 Y 변수라고 부른다. 이 변수는 다른 변수에 의해 영향을 받는 변수인데 분석에 있어 우리가 알고 싶은 값을 나타낸다. 그리고 이러한 Y 변수에 영향을 주는 변수를 독립 변수, 설명 변수(Independent variable, explanatory variable, input variable)라고 하며, 통칭해서 X 변수로 부른다. 이 변수는 종속 변수에 영향을 주는 변수를 의미한다.

▼ 표 1-5 정형 데이터의 행과 열

이름	성별	나이	거주지	직업	요금	데이터 사용량	휴대폰 선호도
AAA	F	20	서울	회사원	55,000	3GB	LG
BBB	F	19	인천	자영업	45,000	9GB	삼성
CCC	M	25	김포	회사원	35,000	1GB	샤오미
DDD	F	42	대전	회사원	75,000	4GB	LG
EEE	F	27	서울	자영업	65,000	2GB	소니
FFF	M	20	서울	회사원	55,000	3GB	LG
GGG	M	43	서울	자영업	45,000	9GB	삼성
HHH	M	25	대전	회사원	95,000	11GB	샤오미
III	F	42	김포	회사원	45,000	3GB	LG
JJJ	F	27	인천	자영업	45,000	4GB	소니

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.