투자은행인 골드만삭스의 전 세계 직원 수는 33,000명인데, 그중 9,000명이 엔지니어와 프로그래머다. 즉, 전 직원의 30%가 IT 관련 직종이다. 페이스북의 IT 관련 직원 수가 9,199명, 트위터의 전체 직원 수가 3,638명, 링크드인의 전체 직원 수가 6,897명인 것을 생각해보면 골드만삭스의 IT 관련 인원이 얼마나 많은 수인지를 쉽게 짐작할 수 있다.
증권산업에서 머신 러닝을 활용하는 대표적인 사례는 알고리즘 트레이딩(algorithmic trading)이다. 알고리즘 트레이딩은 사람의 판단이 아닌 프로그램을 사용해 거래하는 것으로, 이미 미국에서는 2012년에 전체 거래의 85%를 차지할 정도로 일반화됐다. 우리가 흔히 주식시장에서 이야기하는 ‘외국인’은 사람이 아닌, 기관이나 헤지펀드에서 사용하는 알고리즘 트레이딩 프로그램이라고 생각해도 무방하다.
또 다른 활용 사례는 포트폴리오 관리이며 포트폴리오의 선정과 최적화, 요인 및 리스크 분석 등에 활용할 수 있다. 시장 요인을 정의하고, 리서치를 통해 요인을 선별하고, 머신 러닝 알고리즘을 위한 데이터를 만들고, 여러 가지 리스크에 대응하고 목표수익률을 거둘 수 있는 전술적 자산배분을 하는 것이다. 가령 블랙-리터만 모델의 경우 모델에 시장 전망을 베이지안 기법으로 반영하는데, 주관적인 사전확률을 정의하는 데 머신 러닝 알고리즘을 적용할 수 있다.
또한, 파생상품과 이를 이용한 헤징, 채권 투자 등에도 머신 러닝을 활용할 수 있다.
이 책에서는 초보자가 이해하기 쉬운 머신 러닝의 일부 내용만 다룰 것이다. 머신 러닝을 배우려면 기초적인 수학/통계이론(편미분, 벡터 연산, 베이지안 통계 등), 머신 러닝의 이론(퍼셉트론, 오차역전파 등), 머신 러닝 알고리즘(서포트 벡터 머신(SVM), 합성곱신경망(CNN), 순환신경망(RNN)), 머신 러닝 라이브러리(Scikit-learn, Tensorflow, Keras 등)와 같이 알아야 할 내용이 너무 방대하므로, 여기서 모든 내용을 다루는 것은 무리다. 따라서 머신 러닝의 기본 개념 중 하나인 회귀와 K-최근접 이웃(K-Nearest Neighbor, KNN) 알고리즘을 맛보기로 알아보고, 주가지수를 예측하거나 매매 전략을 구하는 예제를 살펴본다.