먼저 필요한 라이브러리를 가져와서 시작합니다.
코드 11-1 라이브러리 호출
import pandas as pd
from sklearn.model_selection import train_test_split ------ 데이터셋을 분리할 때 사용하기 위한 라이브러리
import torch
from kmeans_pytorch import kmeans, kmeans_predict ------ K-평균 군집화 사용
예제에서 사용하는 데이터는 아이리스 데이터셋입니다. 다음 URL에서 데이터셋을 내려받을 수 있습니다.
https://www.kaggle.com/saurabh00007/iriscsv?select=Iris.csv
코드 11-2 데이터셋 불러오기
df = pd.read_csv('../chap11/data/iris.csv')
df.info() ------ 데이터셋에 대한 전반적인 정보를 출력
print('------------------------------------------')
print(df) ------ 아이리스 데이터셋의 데이터 출력
df.info()를 통해 확인하고 싶은 내용은 데이터 타입입니다. 데이터 타입이 ‘object’라면 ‘float64’로 바꾸어야 하기 때문에 사전 확인이 필요합니다.