11 | 편리한 처리를 위한 데이터의 재표현
약물 A, B, C를 실험하고 그 효과를 측정했다고 하자. 이러한 실험의 측정 결과는 보통 다음과 같은 스프레드시트 형태의 표로 정리하게 된다.
A |
B |
C |
3 |
5 |
4 |
2 |
3 |
5 |
9 |
2 |
7 |
그런데 위와 같은 형태는 그래프를 그린다거나 데이터를 조작하는 등의 측면에서 불편한 면이 있다. 예를 들어, 앞서 살펴본 summaryBy( )를 위의 데이터에 적용한다고 생각해보자. 만약 효과를 약물별로 요약하고 싶다면 summaryBy(value ~ category, data) 형태로 명령을 줄 수 있어야 하는데 위의 데이터는 그러한 명령에 적합한 형태가 아니다. summaryBy( )를 쉽게 적용하려면 데이터를 다음과 같은 포맷으로 변환해야 한다.
Medicine |
Value |
A |
3 |
A |
2 |
A |
9 |
B |
5 |
B |
3 |
B |
2 |
C |
4 |
C |
5 |
C |
7 |
변환된 데이터는 summaryBy(Value ~ Medicine, data) 명령으로 쉽게 분석할 수 있다.
이와 같은 방식으로 정리된 형태의 데이터를 ‘Tidy Data’라고 부르며, 이는 라이스 대학에서 통계학 교수로 재직 중인 해들리 위컴Hadley Wickham이 제안[2]한 데이터 저장 방식 방식이다. Tidy Data는 조작이 편하고 모델링이 편하며 시각화가 쉬운 장점이 있다. Tidy Data의 정의는 다음과 같다.
• 각 변수는 하나의 컬럼에 해당한다.
• 각 관찰은 한 행에 해당한다.
• 한 관찰 유형은 하나의 테이블을 형성한다.