더북(TheBook)

분류와 회귀에서 사용하는 용어

분류와 회귀에는 전문적인 용어가 많습니다. 이전 예제에서 일부 용어를 보았고 앞으로 이어지는 장들에서 더 많이 등장합니다. 이런 용어들은 머신 러닝에 특화된 구체적인 정의를 가지므로 친숙해져야 합니다.

샘플 또는 입력: 모델에 주입될 하나의 데이터 포인트(data point)

예측 또는 출력: 모델로부터 나오는 값

타깃: 정답. 외부 데이터 소스에 근거하여 모델이 완벽하게 예측해야 하는 값

예측 오차 또는 손실 값: 모델의 예측과 타깃 사이의 거리를 측정한 값

클래스: 분류 문제에서 선택할 수 있는 가능한 레이블의 집합. 예를 들어 고양이와 강아지 사진을 분류할 때 클래스는 ‘고양이’와 ‘강아지’ 2개입니다.

레이블: 분류 문제에서 클래스 할당의 구체적인 사례. 예를 들어 사진 #1234에 ‘강아지’ 클래스가 들어 있다고 표시한다면 ‘강아지’는 사진 #1234의 레이블이 됩니다.

참 값(ground-truth) 또는 애너테이션(annotation): 데이터셋에 대한 모든 타깃. 일반적으로 사람에 의해 수집됩니다.

이진 분류: 각 입력 샘플이 2개의 배타적인 범주로 구분되는 분류 작업

다중 분류: 각 입력 샘플이 2개 이상의 범주로 구분되는 분류 작업. 예를 들어 손글씨 숫자 분류를 말합니다.

다중 레이블 분류: 각 입력 샘플이 여러 개의 레이블에 할당될 수 있는 분류 작업. 예를 들어 하나의 이미지에 고양이와 강아지가 모두 들어 있을 때는 ‘고양이’ 레이블과 ‘강아지’ 레이블을 모두 할당해야 합니다. 보통 이미지마다 레이블의 개수는 다릅니다.

스칼라 회귀: 타깃이 연속적인 스칼라 값인 작업. 주택 가격 예측이 좋은 예입니다. 각기 다른 타깃 가격이 연속적인 공간을 형성합니다.

벡터 회귀: 타깃이 연속적인 값의 집합인 작업. 예를 들어 연속적인 값으로 이루어진 벡터입니다. (이미지에 있는 경계 상자(bounding box)의 좌표 같은) 여러 개의 값에 대한 회귀를 한다면 벡터 회귀입니다.

미니 배치 또는 배치: 모델에 의해 동시에 처리되는 소량의 샘플 묶음(일반적으로 8개에서 128개 사이). 샘플 개수는 GPU의 메모리 할당이 용이하도록 2의 거듭제곱으로 하는 경우가 많습니다. 훈련할 때 미니 배치마다 한 번씩 모델의 가중치에 적용할 경사 하강법 업데이트 값을 계산합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.