더북(TheBook)

Note ≡ 붓꽃 데이터셋 로드


책 깃허브에는 붓꽃 데이터셋이 포함되어 있습니다(책에서 사용하는 다른 데이터셋도 모두 포함되어 있습니다).10 인터넷에 연결되어 있지 않거나 이따금 UCI 서버(https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data)에 접근할 수 없을 때 사용할 수 있습니다. 이때 로컬 디렉터리에서 붓꽃 데이터를 로드하려면 첫 번째 코드를 두 번째 코드처럼 바꿉니다.

df = pd.read_csv('https://archive.ics.uci.edu/ml/'
                 'machine-learning-databases/iris/iris.data', 
                 header=None, encoding='utf-8')


df = pd.read_csv('your/local/path/to/iris.data', 
                 header=None, encoding='utf-8')

그다음 50개의 Iris-setosa와 50개의 Iris-versicolor 꽃에 해당하는 처음 100개의 클래스 레이블을 추출합니다.11 클래스 레이블을 두 개의 정수 클래스 1(versicolor)0(setosa)으로 바꾼 후 벡터 y에 저장합니다. 판다스 DataFramevalues 속성은 넘파이 배열을 반환합니다.12

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.