3장
1 이 책은 딥러닝을 중점적으로 다루므로 독자 여러분이 딥러닝 학습 전에 머신 러닝을 경험한 적 있다고 가정합니다. 딥러닝 학습을 위한 핵심 원리만 이해하는 데는 이 책 내용만으로도 충분합니다. 머신 러닝을 좀 더 자세히 알고 싶다면 다른 머신 러닝 도서를 참고하세요.
2 새로운 데이터가 들어왔을 때 데이터와 데이터 사이의 거리를 측정한 관측치(혹은 데이터 값)를 의미합니다.
3 iris.data 데이터셋은 1936년 논문에서 영국 통계학자이자 생물학자인 로널드 피셔(R. A. Fisher)가 소개한 다변량 데이터셋입니다(https://archive.ics.uci.edu/ml/machine-learning-databases/iris).
4 실행 결과가 책과 다를 수 있습니다.
5 패턴에서 벗어난 값입니다.
6 저차원 데이터는 특성이 적은 데이터이고, 고차원 데이터는 특성이 많은 데이터입니다.
7 캐글에서 제공하는 타이타닉 데이터셋입니다(https://www.kaggle.com/c/titanic/data).
8 오버플로와 반대되는 개념으로 산술 연산의 결과가 취급할 수 있는 수의 범위보다 작아지는 상태를 의미합니다.
9 호주 기상 관측소(http://www.bom.gov.au/climate/data)의 날씨 데이터를 정리한 데이터셋입니다(https://www.kaggle.com/akdagmelih/rain-prediction-logistic-regression-example/data?select=weatherAUS.csv).
10 캐글에서 제공하는 UCI 도매 고객 데이터셋입니다(https://www.kaggle.com/binovi/wholesale-customers-data-set).
11 두 점 사이의 거리로 임계치(범주) 역할을 수행합니다.
12 중심점을 만드는 구성 요건으로 엡실론 내 데이터 개수를 의미합니다.
13 전체 데이터(독립 변수들)의 분산을 가장 잘 설명하는 성분이라고 할 수 있습니다. 예를 들어 전체 독립 변수가 네 개 있는데, 두 개의 변수로도 전체 데이터에 대한 분산을 충분히 설명할 수 있다면 두 개의 변수만 사용하겠다는 의미입니다.
14 캐글에서 제공하는 클러스터링을 위한 신용 카드 데이터셋입니다(https://www.kaggle.com/ecedolen/machine-l-on-credit-card-customer-segmentation/data).