더북(TheBook)

이외에도 R에는 다양한 데이터 셋이 준비되어 있다. datasets 패키지에 있는 데이터 셋은 R에 기본적으로 포함된 데이터들이며, 이 데이터의 목록은 library(help=datasets) 명령으로 살펴볼 수 있다. 표 4-2에 R 관련 도서에서 종종 등장하는 데이터 셋을 정리했다.

표 4-2 자주 사용하는 데이터 셋

데이터 셋

의미

AirPassenger

1949년부터 1960년까지의 항공기 승객 수

airquality

1973년 5월부터 9월까지의 뉴욕 대기 오염 정도에 대한 기록

cars

자동차의 주행 속도에 따른 제동 거리

mtcars

1974년 미국 모터 트렌드 매거진에 실린 32개 자동차에 대해 연료 효율을 비롯한 10여 가지 특징을 기록

Titanic

타이타닉 호의 생존자 정보를 호실(1등실, 2등실, 3등실), 성별, 나이, 생존 여부로 정리

InsectSprays

6종류의 살충제를 사용했을 때 각 살충제에 대해 살아남은 벌레의 수

Orange

오렌지 나무의 종류, 연령, 둘레

swiss

1888년경 프랑스어를 사용하는 스위스 내 47개 주의 출산율과 사회 경제적 지표(농업 종사자 비율, 군 입대 시험 성적, 교육 등)

이들 데이터를 사용할 때는 ‘data(데이터 셋 이름)’ 명령을 사용한다. 예를 들어, mtcars를 살펴보려면 다음과 같은 명령을 사용한다.

> data(mtcars)
> head(mtcars)
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

mtcars 데이터 셋의 상세 내용을 알고 싶다면 ?mtcars 또는 help(mtcars) 명령을 사용한다.

더 다양한 데이터를 원하는 독자들은 기계 학습 벤치마킹 데이터를 저장한 mlbench 패키지와 UC 어바인University of California, Irvine에서 운영하는 기계 학습 리포지터리Machine Learning Repository 홈페이지(http://archive.ics.uci.edu/ml/)를 살펴보기 바란다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.