더북(TheBook)

150개의 꽃 샘플에서 꽃잎 길이와 꽃잎 너비를 특성 행렬 X에 할당하고 꽃 품종에 해당하는 클래스 레이블을 벡터 y에 할당합니다.2

>>> from sklearn import datasets
>>> import numpy as np
>>> iris = datasets.load_iris()
>>> X = iris.data[:, [2, 3]]
>>> y = iris.target
>>> print('클래스 레이블:', np.unique(y))
클래스 레이블: [0 1 2]

np.unique(y) 함수는 iris.target에 저장된 세 개의 고유한 클래스 레이블을 반환합니다. 결과에서 보듯이 붓꽃의 클래스 이름인 Iris-setosa, Iris-versicolor, Iris-virginica는 이미 정수로 저장되어 있습니다(여기에서는 0, 1, 2). 사이킷런의 많은 함수와 클래스 메서드는 문자열 형태의 클래스 레이블을 다룰 수 있습니다.3 정수 레이블이 권장되는 이유는 사소한 실수를 피할 수 있고 작은 메모리 영역을 차지하므로 계산 성능을 향상시키기 때문입니다. 클래스 레이블을 정수로 인코딩하는 것은 대부분 머신 러닝 라이브러리들의 공통된 관례이기도 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.