더북(TheBook)

11 | 편리한 처리를 위한 데이터의 재표현

약물 A, B, C를 실험하고 그 효과를 측정했다고 하자. 이러한 실험의 측정 결과는 보통 다음과 같은 스프레드시트 형태의 표로 정리하게 된다.

A

B

C

3

5

4

2

3

5

9

2

7

그런데 위와 같은 형태는 그래프를 그린다거나 데이터를 조작하는 등의 측면에서 불편한 면이 있다. 예를 들어, 앞서 살펴본 summaryBy( )를 위의 데이터에 적용한다고 생각해보자. 만약 효과를 약물별로 요약하고 싶다면 summaryBy(value ~ category, data) 형태로 명령을 줄 수 있어야 하는데 위의 데이터는 그러한 명령에 적합한 형태가 아니다. summaryBy( )를 쉽게 적용하려면 데이터를 다음과 같은 포맷으로 변환해야 한다.

Medicine

Value

A

3

A

2

A

9

B

5

B

3

B

2

C

4

C

5

C

7

변환된 데이터는 summaryBy(Value ~ Medicine, data) 명령으로 쉽게 분석할 수 있다.

이와 같은 방식으로 정리된 형태의 데이터를 ‘Tidy Data’라고 부르며, 이는 라이스 대학에서 통계학 교수로 재직 중인 해들리 위컴Hadley Wickham이 제안[2]한 데이터 저장 방식 방식이다. Tidy Data는 조작이 편하고 모델링이 편하며 시각화가 쉬운 장점이 있다. Tidy Data의 정의는 다음과 같다.

각 변수는 하나의 컬럼에 해당한다.

각 관찰은 한 행에 해당한다.

한 관찰 유형은 하나의 테이블을 형성한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.