머신 러닝 교과서: 파이토치 편: 4.6 랜덤 포레스트의 특성 중요도 사용

>>> from sklearn.feature_selection import SelectFromModel
>>> sfm = SelectFromModel(forest, threshold=0.1, prefit=True)
>>> X_selected = sfm.transform(X_train)
>>> print('이 임계 조건을 만족하는 샘플의 수:', X_selected.shape[1])
이 임계 조건을 만족하는 샘플의 수: 5
>>> for f in range(X_selected.shape[1]):
...     print("%2d) %-*s %f" % (f+1, 30, 
...                             feat_labels[indices[f]], 
...                             importances[indices[f]]))
1) Proline                        0.185453
2) Flavanoids                     0.174751
3) Color intensity                0.143920
4) OD280/OD315 of diluted wines   0.136162
5) Alcohol                        0.118529

Note ≡

역주 RFE는 재귀적 특성 제거 방법을 사용합니다. 처음에 모든 특성을 사용하여 모델을 만들고 특성 중요도가 가장 낮은 특성을 제거합니다. 그다음 제외된 특성을 빼고 나머지 특성으로 새로운 모델을 만듭니다. 이런 식으로 미리 정의한 특성 개수가 남을 때까지 계속합니다.

RFE 클래스의 n_features_to_select 매개변수에 선택할 특성의 개수를 지정합니다. 사이킷런 0.24 버전부터 [0, 1] 범위의 실수를 지정하여 선택할 특성의 비율을 지정할 수도 있습니다. 기본값은 입력 특성 개수의 절반입니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.