학습 과정에서 사용되는 문제/정답은 훈련용 데이터다. 보통 학습 과정에서 모든 데이터를 사용하지는 않으며, 전체 데이터의 80%를 훈련용으로 사용하고 나머지 20%는 검증용 데이터로 사용한다. 데이터가 충분하지 않다면 랜덤하게 훈련용 데이터/검증용 데이터를 선별해 사용하기도 한다. 이를 교차검증(cross validation)이라고 한다.
그러나 세상에는 정답이 없는 문제도 많다. 따라서 흔히 ‘비지도학습’이라고 불리는 자율학습이 등장했다. 자율학습(또는 비지도학습)은 미리 결과를 주지 않고, 데이터들의 속성을 분류해 구분하고 그룹으로 나누는 방법이다. 가령 우리가 유튜브 영상을 감상하면, 유튜브의 알고리즘이 채널의 시청자와 구독자, 시청자의 성별, 나이, 시청 시간을 분석하고 비슷한 사람들에게 광고와 영상을 추천한다.
즉, 자율학습은 데이터를 군집화하고 패턴을 찾아내는 것이다. 예를 들어 탁자 위에 플레잉 카드(playing cards)가 마구잡이로 섞여 있을 때, 우리는 어지럽혀진 사물들을 정리하려는 본능에 따라 카드의 그림(클로버(clobber), 스페이드(spade), 하트(heart), 다이아몬드(diamond))별로 분류할 수 있다. 또는 카드의 숫자나 색상별로 분류할 수도 있다. 미리 학습하지 않아도 카드 특성(그림, 숫자, 색상)을 분류하고 구분해 그룹으로 만드는 것이다.
▲ 그림 7-3 윈도의 프리셀 게임