더북(TheBook)

01 | 데이터 처리 및 가공 패키지

이 장에서는 복잡한 데이터 처리에 필요한 R의 중요 패키지와 코드 테스트 및 디버깅 방법을 알아본다. 다음은 이 장에서 설명할 패키지들에 대한 간략한 설명이다.

표 5-1 5장에서 설명할 주요 R 패키지

패키지

용도

sqldf

SQL을 사용한 데이터 처리

plyr

데이터를 분할하고(split), 분할된 결과에 함수를 적용한 뒤(apply), 그 결과를 재조합(combine)

reshape2

데이터의 모양을 바꾸거나 요약

data.table

R의 데이터 프레임을 대신할 수 있는 더 빠르고 편리한 데이터 타입

foreach

apply 계열 함수들과 for 문을 대신할 수 있는 반복문 구조

doParallel

멀티코어를 사용한 프로그램의 병렬적 수행 기능

testthat

R 코드의 기능 테스트를 위한 유닛 테스팅 프레임워크

이런 패키지들을 다 알아야만 하는지 의문이 드는 독자도 있을 것이다. 이에 대한 답은 ‘필요하다’는 것이다. 기본 R 함수들도 충분히 훌륭하지만 실제 데이터를 다루기에는 이 장에서 살펴볼 내용에 비해 편의성과 성능이 많이 부족하기 때문이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.