더북(TheBook)

3.2 간단한 분류 데이터셋

sklearn에 내장된 iris(붓꽃) 데이터셋은 머신 러닝과 통계학에서 역사가 아주 오래 되었습니다. 20세기 중반 통계학자인 로널드 피셔 경(Sir Ronald Fisher)이 우리가 현재 ‘분류’라고 하는 내용을 다룬 초기 학술 논문에 등장하여 가끔 피셔의 iris 데이터셋이라고도 합니다. 흥미롭게도 데이터 수집은 에드가 앤더슨(Edgar Anderson)이 담당했지만, 이 데이터셋에서 보통 그 이름은 언급되지 않습니다. 안타깝네요. 역사 공부는 이제 그만하고 iris 데이터셋에는 어떤 데이터가 있을까요? 데이터셋의 각 행은 붓꽃 하나를 꽃받침과 꽃잎의 길이와 너비로 표현합니다. 그림 3-1과 같이 꽃받침은 꽃의 큰 부분, 꽃잎은 작은 부분이라는 것 정도만 알고 넘어가겠습니다. 붓꽃별로 총 네 개의 측정치를 가지고 있습니다. 마지막 컬럼은 우리가 예측할 대상인 붓꽃의 종류 세토사(setosa), 버시컬러(versicolor), 버지니카(virginica)입니다.

iris 데이터셋을 불러와서 행 몇 개를 살펴봅시다. 그리고 그래프도 조금 그려 보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.