더북(TheBook)

6.1.1 위스콘신 유방암 데이터셋

이 장에서 위스콘신 유방암 데이터셋을 사용하겠습니다. 여기에는 악성과 양성인 종양 세포 샘플 569개가 포함되어 있습니다. 데이터셋의 첫 두 열에는 샘플의 고유 ID 번호와 진단 결과(M = 악성, B = 양성)가 들어 있습니다. 3번째에서 32번째까지 열에는 세포 핵의 디지털 이미지에서 계산된 30개의 실수 값 특성이 담겨 있습니다. 이 특성을 사용하여 종양이 악성인지 양성인지 예측하는 모델을 만들 것입니다. 위스콘신 유방암 데이터셋은 UCI 머신 러닝 저장소에 보관되어 있습니다. 이 데이터셋에 대한 자세한 내용은 https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)을 참고하세요.

Note ≡ 위스콘신 유방암 데이터셋 받기


유방암 데이터셋(그리고 책에서 사용하는 다른 모든 데이터셋)은 책의 깃허브에 포함되어 있습니다. 인터넷을 사용하지 않을 때나 이따금 UCI 서버(https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data)에 접속되지 않을 때 사용할 수 있습니다. 예를 들어 로컬 디렉터리에서 유방암 데이터셋을 로드하려면 첫 번째 코드를 두 번째 코드처럼 바꿉니다.

df = pd.read_csv('https://archive.ics.uci.edu/ml/'
                 'machine-learning-databases'
                 '/breast-cancer-wisconsin/wdbc.data',
                 header=None)

df = pd.read_csv('your/local/path/to/wdbc.data',
                 header=None)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.