머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 1.4.1 카테고리 예측: 분류 모델 사례

1.4.1 카테고리 예측: 분류 모델 사례

분류 모델은 입력 사례에서 작은 수의 그룹이나 클래스 중 하나를 출력하는 모델입니다.

1. 이미지 분류

입력 이미지 안에 있는 동물(고양이, 개, 얼룩말 등)을 출력하거나 동물이 없는 경우 ‘해당 없음’을 반환합니다. 이러한 종류의 이미지 분석은 머신 러닝과 컴퓨터 비전의 교집합입니다. 여기에서 입력 데이터는 보통 큰 규모의 이미지 파일입니다. 파일 포맷은 PNG, JPEG 등 다양할 수 있습니다. 또 이 이미지들은 서로 특징이 상당히 다를 수 있습니다. (1) 사물 크기가 제각각이거나 (2) 동물이 이미지 중앙에 있거나 화면 외곽에서 잘려 있을 수도 있고 (3) 나무 같은 다른 물체에 가려져 있을 수도 있습니다. 이는 학습 시스템과 머신 러닝 연구자들에게는 큰 난관으로 다가옵니다. 그런데 이미지 인식 문제에는 몇 가지 좋은 특징이 있습니다. 고양이라는 개념 자체는 잘 변하지 않습니다. 물론 홉스나 가필드 같은 애니메이션 속 고양이는 조금 애매하지만, 대체로 고양이는 꽤 고정적인 개념입니다. 이미지와 고양이라는 개념 간 관계는 시간이 흘러도 그대로입니다.

2. 주가 예측

주가 흐름 히스토리, 회사의 재무 데이터와 시장 데이터 등을 이용해서 해당 주식을 살지 혹은 팔지 결정합니다. 주가 예측에는 몇 가지 어려움이 있습니다. 재무 데이터는 텍스트 형태로만 존재할 때가 많습니다. 경제 뉴스에는 유용한 정보가 많이 담겨 있지만, 이를 학습에 사용하려면 수동으로 정보를 추출하거나 자동으로 처리할 수 있는 또 다른 학습 시스템을 만들어야 합니다. 유의미한 텍스트 정보를 뽑아내고 나면 이를 해석해야 합니다. 학습 시스템과 자연어 처리(Natural Language Processing, NLP)가 만나는 지점입니다. 주가 예측은 시계열 데이터를 사용합니다. 문제가 점점 더 어려워지네요. 그리고 주식 시장의 타깃은 움직입니다. 대박 주식을 뽑았던 과거 모델을 미래에도 동일하게 작동할 수 있다는 보장이 없습니다. 입력과 타깃 간 관계가 변화하는 것에 대응할 수 있는 기법이나 방법을 사용해야 합니다. 또는 그저 하늘에 운을 맡기고 타깃이 변하지 않을 것이라고 가정할 수도 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.