지금까지 살펴본 내용을 Orange 데이터 셋에 적용해보자. Orange 데이터는 오렌지 나무Tree별 수령age과 둘레circumference를 저장한 데이터다.

    > data(Orange)
    > Orange
        Tree  age circumference
    1      1  118            30
    2      1  484            58
    3      1  664            87
    4      1 1004           115
    5      1 1231           120
    6      1 1372           142
    7      1 1582           145
    8      2  118            33
    9      2  484            69
    10     2  664           111
    11     2 1004           156
    12     2 1231           172
    13     2 1372           203
    14     2 1582           203
    15     3  118            30
    16     3  484            51
    17     3  664            75
    18     3 1004           108
    19     3 1231           115
    20     3 1372           139
    21     3 1582           140
    22     4  118            32
    23     4  484            62
    24     4  664           112
    25     4 1004           167
    26     4 1231           179
    27     4 1372           209
    28     4 1582           214
    29     5  118            30
    30     5  484            49
    31     5  664            81
    32     5 1004           125
    33     5 1231           142
    34     5 1372           174
    35     5 1582           177
    

    Orange 데이터에서 age는 Tree별로 모두 동일한 나이인 118, 484, 664, …, 1582일 때 측정되었다. 따라서 모델을 만들기에 앞서 Tree와 circumference 간 상호 연관 관계를 다음처럼 plot( )으로 시각화해볼 수 있다.4

    > with(Orange,
    +      plot(Tree, circumference, xlab="tree", ylab="circumference"))
    
    그림 8-8 Tree에 따른 circumference의 상자 그림
    그림 8-8 Tree에 따른 circumference의 상자 그림

    4 plot(circumference ~ Tree, data=Orange)처럼 포뮬러를 사용해도 된다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.