더북(TheBook)


R에서 자주 쓰는 데이터 구조와 리스트

데이터 구조 중에서 가장 많이 쓰는 것은 벡터와 데이터 프레임(그리고 티블)입니다. 벡터는 R 데이터 구조의 가장 기본이며, 데이터 프레임은 R 외의 다른 프로그램에서도 많이 쓰는 구조입니다. 사실 리스트는 일반적인 비즈니스 데이터 영역에서 자주 쓰는 데이터 구조가 아닙니다. 이 책에서는 리스트 설명에 지면을 많이 할애했는데, 리스트는 다른 데이터 구조들을 포함할 수 있을 뿐만 아니라 인덱스 특징까지 갖고 있기 때문입니다. 대부분 리스트 구조 개념이 난해해서 설명을 생략하는 경우가 많은데, 리스트는 R 데이터 구조의 기본을 이루므로 나중에라도 알아 두면 좋습니다. 또 이런 개념들은 데이터 테이블의 데이터 구성과 데이터 선택 방법과도 연결됩니다. 그렇지만 리스트가 너무 어렵게 느껴진다면 벡터와 데이터 테이블부터 익히는 것도 좋습니다.

 

NOTE

tidyverse란

티블은 R의 내부 생태계인 tidyverse의 기본 데이터 구조이기도 합니다. tidyverse란 R 발전에 크게 공헌한 해들리 위컴 박사가 제안한 데이터를 저장하고 관리하는 표준 체계입니다. tidyverse 내 패키지들은 기존 R에서 부족하거나 불편한 요소들을 개선하여 표준화한 출력과 기능을 제공하며, 사상을 공유합니다. R의 기본 시스템은 아니지만 좀 더 데이터를 효율적으로 다룰 수 있게 개선해 놓은 새로운 시스템이라고 할까요? tidyverse에는 우리가 다루는 dplyr, ggplot2 패키지가 포함되어 있습니다.

 

그림 7-30 | R 생태계와 tidyverse

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.