머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 3.8.3 참고 사항

3.8.3 참고 사항

여러분이 식물학자이거나 식물에 관심이 있다면, 앤더슨(Anderson)이 붓꽃에 관해 쓴 원 논문(https://www.jstor.org/stable/2394164)을 읽어 보세요. sklearn에서 제공하는 버전의 붓꽃 데이터는 UCI 데이터 저장소(https://archive.ics.uci.edu/ml/datasets/Iris)에서 구할 수 있습니다.

민코프스키 거리는 실제로는 그렇게 무시무시하지 않습니다. 맨해튼(Manhattan) 거리라는 거리 개념이 있습니다. 우리가 도시 맨해튼의 골목처럼 고정된 격자 위에 있을 때 한 지점에서 다른 지점으로 가장 빨리 이동하는 데 소요되는 거리를 의미합니다. 맨해튼 거리는 제곱이나 제곱근 없이 특성 간 차이의 절댓값을 단순하게 모두 더한 것입니다. 민코프스키 거리는 이 공식을 확장해서 p 값을 변화시킴에 따라 맨해튼, 유클리드 혹은 다른 거리들을 선택할 수 있게끔 합니다. p 값을 아주 크게 해서 무한대로 만들면 이상한 일이 벌어집니다. 그럴 때 이것은 체비쇼프 거리라는 이름으로 부릅니다.

이전에 알고리즘에 대한 이론적인 자원 분석을 본 적이 있다면, 여러분은 복잡도 분석 혹은 빅오(Big-O) 표기법이 기억날 것입니다. 빅오 표기법은 인풋 크기가 커짐에 따라 변화하는 자원 사용의 상한선을 O(n²) 같은 수학적 표현으로 간략화한 것입니다. 여기에서 빅오라는 이름이 나온 것이지요.

저는 그래픽 프로세싱 유닛(GPU)에 대해 간단히 언급하고 지나갔습니다. 현대 비디오 게임의 시각 효과 같은 컴퓨터 그래픽스에 사용된 수학을 살펴보면, 그것은 공간상의 점을 표현하는 것입니다. 그리고 우리가 데이터를 가지고 놀 때 사례들을 공간상의 점으로 표현하곤 합니다. 이를 표현하는 ‘자연스러운’ 수학적인 용어는 행렬 대수학입니다. GPU는 행렬 대수를 광속으로 처리하기 위해 디자인되었습니다. 그래서 GPU에서 머신 러닝 알고리즘을 매우 효과적으로 실행할 수 있는 것이지요. 씨아노(Theano), 텐서플로(TensorFlow), 케라스(Keras)는 인공신경망이라는 학습 모델을 이용한 학습 작업을 하는 데 있어 GPU 이점을 살리게끔 디자인되었습니다. 이것들은 15장에서 간단히 소개하겠습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.