더북(TheBook)

이 절에서는 세 단계로 나누어 데이터셋을 읽고 훈련 데이터셋과 테스트 데이터셋으로 분할하겠습니다.

1. pandas를 사용하여 UCI 서버에서 직접 데이터셋을 읽어 들입니다.

>>> import pandas as pd
>>> df = pd.read_csv('https://archive.ics.uci.edu/ml/'
...                  'machine-learning-databases'
...                  '/breast-cancer-wisconsin/wdbc.data',
...                  header=None)

2. 그다음 30개의 특성을 넘파이 배열 X에 할당합니다. LabelEncoder 객체를 사용하여 클래스 레이블을 원본 문자열 표현('M''B')에서 정수로 변환합니다.1

>>> from sklearn.preprocessing import LabelEncoder
>>> X = df.loc[:, 2:].values
>>> y = df.loc[:, 1].values
>>> le = LabelEncoder()
>>> y = le.fit_transform(y)
>>> le.classes_
array(['B', 'M'], dtype=object)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.