이외에도 R에는 다양한 데이터 셋이 준비되어 있다. datasets 패키지에 있는 데이터 셋은 R에 기본적으로 포함된 데이터들이며, 이 데이터의 목록은 library(help=datasets) 명령으로 살펴볼 수 있다. 표 4-2에 R 관련 도서에서 종종 등장하는 데이터 셋을 정리했다.
데이터 셋 |
의미 |
AirPassenger |
1949년부터 1960년까지의 항공기 승객 수 |
airquality |
1973년 5월부터 9월까지의 뉴욕 대기 오염 정도에 대한 기록 |
cars |
자동차의 주행 속도에 따른 제동 거리 |
mtcars |
1974년 미국 모터 트렌드 매거진에 실린 32개 자동차에 대해 연료 효율을 비롯한 10여 가지 특징을 기록 |
Titanic |
타이타닉 호의 생존자 정보를 호실(1등실, 2등실, 3등실), 성별, 나이, 생존 여부로 정리 |
InsectSprays |
6종류의 살충제를 사용했을 때 각 살충제에 대해 살아남은 벌레의 수 |
Orange |
오렌지 나무의 종류, 연령, 둘레 |
swiss |
1888년경 프랑스어를 사용하는 스위스 내 47개 주의 출산율과 사회 경제적 지표(농업 종사자 비율, 군 입대 시험 성적, 교육 등) |
이들 데이터를 사용할 때는 ‘data(데이터 셋 이름)’ 명령을 사용한다. 예를 들어, mtcars를 살펴보려면 다음과 같은 명령을 사용한다.
> data(mtcars) > head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
mtcars 데이터 셋의 상세 내용을 알고 싶다면 ?mtcars 또는 help(mtcars) 명령을 사용한다.
더 다양한 데이터를 원하는 독자들은 기계 학습 벤치마킹 데이터를 저장한 mlbench 패키지와 UC 어바인University of California, Irvine에서 운영하는 기계 학습 리포지터리Machine Learning Repository 홈페이지(http://archive.ics.uci.edu/ml/)를 살펴보기 바란다.