더북(TheBook)

3장

 

  1 이 책은 딥러닝을 중점적으로 다루므로 독자 여러분이 딥러닝 학습 전에 머신 러닝을 경험한 적 있다고 가정합니다. 딥러닝 학습을 위한 핵심 원리만 이해하는 데는 이 책 내용만으로도 충분합니다. 머신 러닝을 좀 더 자세히 알고 싶다면 다른 머신 러닝 도서를 참고하세요.

 

  2 새로운 데이터가 들어왔을 때 데이터와 데이터 사이의 거리를 측정한 관측치(혹은 데이터 값)를 의미합니다.

 

  3 iris.data 데이터셋은 1936년 논문에서 영국 통계학자이자 생물학자인 로널드 피셔(R. A. Fisher)가 소개한 다변량 데이터셋입니다(https://archive.ics.uci.edu/ml/machine-learning-databases/iris).

 

  4 실행 결과가 책과 다를 수 있습니다.

 

  5 패턴에서 벗어난 값입니다.

 

  6 저차원 데이터는 특성이 적은 데이터이고, 고차원 데이터는 특성이 많은 데이터입니다.

 

  7 캐글에서 제공하는 타이타닉 데이터셋입니다(https://www.kaggle.com/c/titanic/data).

 

  8 오버플로와 반대되는 개념으로 산술 연산의 결과가 취급할 수 있는 수의 범위보다 작아지는 상태를 의미합니다.

 

 

10 캐글에서 제공하는 UCI 도매 고객 데이터셋입니다(https://www.kaggle.com/binovi/wholesale-customers-data-set).

 

11 두 점 사이의 거리로 임계치(범주) 역할을 수행합니다.

 

12 중심점을 만드는 구성 요건으로 엡실론 내 데이터 개수를 의미합니다.

 

13 전체 데이터(독립 변수들)의 분산을 가장 잘 설명하는 성분이라고 할 수 있습니다. 예를 들어 전체 독립 변수가 네 개 있는데, 두 개의 변수로도 전체 데이터에 대한 분산을 충분히 설명할 수 있다면 두 개의 변수만 사용하겠다는 의미입니다.

 

14 캐글에서 제공하는 클러스터링을 위한 신용 카드 데이터셋입니다(https://www.kaggle.com/ecedolen/machine-l-on-credit-card-customer-segmentation/data).

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.