더북(TheBook)

먼저 필요한 라이브러리를 가져와서 시작합니다.

코드 11-1 라이브러리 호출

import pandas as pd
from sklearn.model_selection import train_test_split ------ 데이터셋을 분리할 때 사용하기 위한 라이브러리
import torch
from kmeans_pytorch import kmeans, kmeans_predict ------ K-평균 군집화 사용

예제에서 사용하는 데이터는 아이리스 데이터셋입니다. 다음 URL에서 데이터셋을 내려받을 수 있습니다.

https://www.kaggle.com/saurabh00007/iriscsv?select=Iris.csv

코드 11-2 데이터셋 불러오기

df = pd.read_csv('../chap11/data/iris.csv')
df.info() ------ 데이터셋에 대한 전반적인 정보를 출력
print('------------------------------------------')
print(df) ------ 아이리스 데이터셋의 데이터 출력

df.info()를 통해 확인하고 싶은 내용은 데이터 타입입니다. 데이터 타입이 ‘object’라면 ‘float64’로 바꾸어야 하기 때문에 사전 확인이 필요합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.