더북(TheBook)

빠른 모델링을 위한 X와 Y의 직접 지정

랜덤 포레스트는 500개의 의사 결정 나무를 만든다. 따라서 모델링에 걸리는 시간이 길고 데이터의 양이 많아지면 ‘모델을 더 빨리 만들 수는 없을까?’라는 의문이 든다.

모델을 더 빨리 만드는 방법 중 하나는 포뮬러 대신 설명 변수(X), 종속 변수(Y)를 직접 지정하는 것이다. 포뮬러를 사용한 표현이 편리해 보이지만 (X, Y) 형태로 변수를 지정하는 경우에 비해 많은 메모리를 필요로 하고 속도가 더 느리다고 알려져 있다.

포뮬러 대신 변수를 직접 지정하는 방식은 randomForest( )를 비롯한 몇몇 모델링 함수에서 지원하므로 각 모델링 함수의 도움말을 잘 살펴보기 바란다. 다음은 Species를 Y, 그 외의 변수를 X로 하여 randomForest( )에 직접 지정한 예다.

> m <- randomForest(iris[,1:4], iris[,5])
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.