먼저 필요한 라이브러리를 호출하고 데이터를 준비하겠습니다. 데이터는 내려받은 예제 파일의 data 폴더에 있는 iris.data 파일을 사용합니다.3 iris.data 데이터 경로는 자신의 실습 환경에 맞게 수정해서 사용할 수 있습니다.
코드 3-1 라이브러리 호출 및 데이터 준비
import numpy as np ------ 벡터 및 행렬의 연산 처리를 위한 라이브러리
import matplotlib.pyplot as plt ------ 데이터를 차트나 플롯(plot)으로 그려 주는 라이브러리
import pandas as pd ------ 데이터 분석 및 조작을 위한 라이브러리
from sklearn import metrics ------ 모델 성능 평가
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class'] ------ 데이터셋에 열(column) 이름 할당
dataset = pd.read_csv('../chap3/data/iris.data', names=names) ------ 데이터를 판다스 데이터프레임(dataframe)에 저장, 경로는 수정해서 진행
3 iris.data 데이터셋은 1936년 논문에서 영국 통계학자이자 생물학자인 로널드 피셔(R. A. Fisher)가 소개한 다변량 데이터셋입니다(https://archive.ics.uci.edu/ml/machine-learning-databases/iris).