Note ≡ 붓꽃 데이터셋 로드
책 깃허브에는 붓꽃 데이터셋이 포함되어 있습니다(책에서 사용하는 다른 데이터셋도 모두 포함되어 있습니다).10 인터넷에 연결되어 있지 않거나 이따금 UCI 서버(https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data)에 접근할 수 없을 때 사용할 수 있습니다. 이때 로컬 디렉터리에서 붓꽃 데이터를 로드하려면 첫 번째 코드를 두 번째 코드처럼 바꿉니다.
df = pd.read_csv('https://archive.ics.uci.edu/ml/'
'machine-learning-databases/iris/iris.data',
header=None, encoding='utf-8')
df = pd.read_csv('your/local/path/to/iris.data',
header=None, encoding='utf-8')
그다음 50개의 Iris-setosa와 50개의 Iris-versicolor 꽃에 해당하는 처음 100개의 클래스 레이블을 추출합니다.11 클래스 레이블을 두 개의 정수 클래스 1(versicolor)과 0(setosa)으로 바꾼 후 벡터 y에 저장합니다. 판다스 DataFrame의 values 속성은 넘파이 배열을 반환합니다.12