더북(TheBook)

지금까지 살펴본 내용을 Orange 데이터 셋에 적용해보자. Orange 데이터는 오렌지 나무Tree별 수령age과 둘레circumference를 저장한 데이터다.

> data(Orange)
> Orange
    Tree  age circumference
1      1  118            30
2      1  484            58
3      1  664            87
4      1 1004           115
5      1 1231           120
6      1 1372           142
7      1 1582           145
8      2  118            33
9      2  484            69
10     2  664           111
11     2 1004           156
12     2 1231           172
13     2 1372           203
14     2 1582           203
15     3  118            30
16     3  484            51
17     3  664            75
18     3 1004           108
19     3 1231           115
20     3 1372           139
21     3 1582           140
22     4  118            32
23     4  484            62
24     4  664           112
25     4 1004           167
26     4 1231           179
27     4 1372           209
28     4 1582           214
29     5  118            30
30     5  484            49
31     5  664            81
32     5 1004           125
33     5 1231           142
34     5 1372           174
35     5 1582           177

Orange 데이터에서 age는 Tree별로 모두 동일한 나이인 118, 484, 664, …, 1582일 때 측정되었다. 따라서 모델을 만들기에 앞서 Tree와 circumference 간 상호 연관 관계를 다음처럼 plot( )으로 시각화해볼 수 있다.4

> with(Orange,
+      plot(Tree, circumference, xlab="tree", ylab="circumference"))
그림 8-8 Tree에 따른 circumference의 상자 그림
그림 8-8 Tree에 따른 circumference의 상자 그림

4 plot(circumference ~ Tree, data=Orange)처럼 포뮬러를 사용해도 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.