3장

     

      1 이 책은 딥러닝을 중점적으로 다루므로 독자 여러분이 딥러닝 학습 전에 머신 러닝을 경험한 적 있다고 가정합니다. 딥러닝 학습을 위한 핵심 원리만 이해하는 데는 이 책 내용만으로도 충분합니다. 머신 러닝을 좀 더 자세히 알고 싶다면 다른 머신 러닝 도서를 참고하세요.

     

      2 새로운 데이터가 들어왔을 때 데이터와 데이터 사이의 거리를 측정한 관측치(혹은 데이터 값)를 의미합니다.

     

      3 iris.data 데이터셋은 1936년 논문에서 영국 통계학자이자 생물학자인 로널드 피셔(R. A. Fisher)가 소개한 다변량 데이터셋입니다(https://archive.ics.uci.edu/ml/machine-learning-databases/iris).

     

      4 실행 결과가 책과 다를 수 있습니다.

     

      5 패턴에서 벗어난 값입니다.

     

      6 저차원 데이터는 특성이 적은 데이터이고, 고차원 데이터는 특성이 많은 데이터입니다.

     

      7 캐글에서 제공하는 타이타닉 데이터셋입니다(https://www.kaggle.com/c/titanic/data).

     

      8 오버플로와 반대되는 개념으로 산술 연산의 결과가 취급할 수 있는 수의 범위보다 작아지는 상태를 의미합니다.

     

     

    10 캐글에서 제공하는 UCI 도매 고객 데이터셋입니다(https://www.kaggle.com/binovi/wholesale-customers-data-set).

     

    11 두 점 사이의 거리로 임계치(범주) 역할을 수행합니다.

     

    12 중심점을 만드는 구성 요건으로 엡실론 내 데이터 개수를 의미합니다.

     

    13 전체 데이터(독립 변수들)의 분산을 가장 잘 설명하는 성분이라고 할 수 있습니다. 예를 들어 전체 독립 변수가 네 개 있는데, 두 개의 변수로도 전체 데이터에 대한 분산을 충분히 설명할 수 있다면 두 개의 변수만 사용하겠다는 의미입니다.

     

    14 캐글에서 제공하는 클러스터링을 위한 신용 카드 데이터셋입니다(https://www.kaggle.com/ecedolen/machine-l-on-credit-card-customer-segmentation/data).

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.