01 | 데이터 처리 및 가공 패키지
이 장에서는 복잡한 데이터 처리에 필요한 R의 중요 패키지와 코드 테스트 및 디버깅 방법을 알아본다. 다음은 이 장에서 설명할 패키지들에 대한 간략한 설명이다.
패키지 |
용도 |
sqldf |
SQL을 사용한 데이터 처리 |
plyr |
데이터를 분할하고(split), 분할된 결과에 함수를 적용한 뒤(apply), 그 결과를 재조합(combine) |
reshape2 |
데이터의 모양을 바꾸거나 요약 |
data.table |
R의 데이터 프레임을 대신할 수 있는 더 빠르고 편리한 데이터 타입 |
foreach |
apply 계열 함수들과 for 문을 대신할 수 있는 반복문 구조 |
doParallel |
멀티코어를 사용한 프로그램의 병렬적 수행 기능 |
testthat |
R 코드의 기능 테스트를 위한 유닛 테스팅 프레임워크 |
이런 패키지들을 다 알아야만 하는지 의문이 드는 독자도 있을 것이다. 이에 대한 답은 ‘필요하다’는 것이다. 기본 R 함수들도 충분히 훌륭하지만 실제 데이터를 다루기에는 이 장에서 살펴볼 내용에 비해 편의성과 성능이 많이 부족하기 때문이다.