150개의 꽃 샘플에서 꽃잎 길이와 꽃잎 너비를 특성 행렬 X에 할당하고 꽃 품종에 해당하는 클래스 레이블을 벡터 y에 할당합니다.2

    >>> from sklearn import datasets
    >>> import numpy as np
    >>> iris = datasets.load_iris()
    >>> X = iris.data[:, [2, 3]]
    >>> y = iris.target
    >>> print('클래스 레이블:', np.unique(y))
    클래스 레이블: [0 1 2]

    np.unique(y) 함수는 iris.target에 저장된 세 개의 고유한 클래스 레이블을 반환합니다. 결과에서 보듯이 붓꽃의 클래스 이름인 Iris-setosa, Iris-versicolor, Iris-virginica는 이미 정수로 저장되어 있습니다(여기에서는 0, 1, 2). 사이킷런의 많은 함수와 클래스 메서드는 문자열 형태의 클래스 레이블을 다룰 수 있습니다.3 정수 레이블이 권장되는 이유는 사소한 실수를 피할 수 있고 작은 메모리 영역을 차지하므로 계산 성능을 향상시키기 때문입니다. 클래스 레이블을 정수로 인코딩하는 것은 대부분 머신 러닝 라이브러리들의 공통된 관례이기도 합니다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.