5 그 외 데이터 표현
그 외 데이터 처리를 위한 특수한 상태를 나타내는 데이터 종류가 있는데, 주요한 것은 다음 표와 같습니다.
표 4-2 | 그 외 데이터 표현
표현 값 |
의미 |
설명 |
NA(Not Available) |
측정되지 않은 값 |
값이 측정되지 않아 사용할 수 없음 |
NaN(Not a Number) |
연산 불가능, 부적절한 값 |
예를 들어 0/0은 부적절한 연산 |
Inf, -Inf |
무한 값 |
값이 너무 크거나 작아 연산이 어려움 |
NULL |
정의되지 않은 값 |
값이 정의되지 않아 없음 |
이 중에서 NA(NotAvailable)는 결측 값 또는 결측치라고 하는데, 결측치를 처리하는 방법은 9장에서 다시 한번 다룹니다.
NOTE
데이터 종류를 구분하는 class(), mode(), typeof() 함수
R에는 앞서 소개한 자료형 외에 다양한 자료형이 있습니다. 또 다른 분류 기준을 갖는 mode()나 typeof() 함수로 데이터를 분류하면 분류 내용이 조금 달라지기도 합니다. 하지만 이 책에서는 실제 데이터를 어떻게 다루는지에 집중하므로 과유불급의 덫에 빠지지 않고자 다른 방식의 분류는 사용하지 않습니다. 대표적으로 많이 사용하는 class() 함수의 출력을 기준으로 설명합니다. 일반적인 상황에서는 이 책에서 제시한 데이터 분류만으로도 충분합니다. 필요하다면 향후 mode()나 typeof() 함수로 분류하는 방법을 함께 알아보기 바랍니다.