더북(TheBook)

또는 다음과 같이 표현할 수 있습니다.

이름

여성

남성

마크

아니요

아니요

에단

아니요

인구 조사 데이터에 커뮤니티 타입을 기록한 열이 있다고 합시다. 이 열에는 도시(Urban), 시골(Rural), 교외(Suburban) 값이 기록되어 있습니다. 이 정보를 세 개의 열로도 표현할 수 있습니다. 테이블 크기는 걱정하지 않겠습니다. 어떤 학습 방법들은 특정한 형태를 선호한다는 것이 중요합니다. 이외에도 여러 세부 내용이 있지만 나중을 대비하여 남겨 놓겠습니다.

몇몇 특성 값은 숫자로 기록하여 사용할 수 있습니다. 이들을 묶어 수치적 특성이라고 합니다. 또 다른 맥락에서는 이들을 연속적(continuous) 변수라고 하거나 또 다른 세부 사항에 따라 간격적(interval) 혹은 비율적(ratio) 값이라고도 합니다. 키와 몸무게 같은 속성 값들은 보통 소수점 숫자로 기록합니다. 나이나 혈압 같은 속성 값들은 정수로 기록합니다. 차량의 바퀴 수와 같은 횟수 값들은 정수여야만 합니다. 이 값들을 사용해서 사칙 연산을 할 수 있습니다. 범주형 데이터 역시 숫자로 표현할 수 있지만, 이들 값에 수치적 연산을 직접적으로 적용할 수는 없습니다. 펜실베이니아와 버몬트 주가 각각 2와 14로 적혀 있다고 해도, 이 두 숫자에 덧셈과 뺄셈을 해서 의미 있는 결과를 얻을 수는 없습니다. 물론 예외는 있습니다. 어떤 의도를 가지고 숫자에 단순한 식별자 이상의 의미를 부여한다면, 일부 혹은 모든 수학적 연산을 적용할 수도 있을 것입니다. 펜실베이니아와 버몬트 주에 부여한 숫자로 사칙 연산을 했을 때 그 과정이 충분한 의미를 담고 있다면, 그 이유는 무엇일까요? 한번 생각해 보세요.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.