지금까지 살펴본 내용을 Orange 데이터 셋에 적용해보자. Orange 데이터는 오렌지 나무Tree별 수령age과 둘레circumference를 저장한 데이터다.
> data(Orange) > Orange Tree age circumference 1 1 118 30 2 1 484 58 3 1 664 87 4 1 1004 115 5 1 1231 120 6 1 1372 142 7 1 1582 145 8 2 118 33 9 2 484 69 10 2 664 111 11 2 1004 156 12 2 1231 172 13 2 1372 203 14 2 1582 203 15 3 118 30 16 3 484 51 17 3 664 75 18 3 1004 108 19 3 1231 115 20 3 1372 139 21 3 1582 140 22 4 118 32 23 4 484 62 24 4 664 112 25 4 1004 167 26 4 1231 179 27 4 1372 209 28 4 1582 214 29 5 118 30 30 5 484 49 31 5 664 81 32 5 1004 125 33 5 1231 142 34 5 1372 174 35 5 1582 177
Orange 데이터에서 age는 Tree별로 모두 동일한 나이인 118, 484, 664, …, 1582일 때 측정되었다. 따라서 모델을 만들기에 앞서 Tree와 circumference 간 상호 연관 관계를 다음처럼 plot( )으로 시각화해볼 수 있다.4
> with(Orange, + plot(Tree, circumference, xlab="tree", ylab="circumference"))
4 plot(circumference ~ Tree, data=Orange)처럼 포뮬러를 사용해도 된다.