더북(TheBook)

기존의 컴퓨터 비전 작업들은 출력의 형태가 상대적으로 단순합니다. 분류(classification)는 주어진 이미지가 어떤 클래스( 고양이, 자동차 등)에 속하는지 결정하는 작업으로, 출력은 단일 클래스 레이블 또는 각 클래스에 속할 확률을 나타내는 값들의 집합입니다. 위치 파악(localization)은 이미지 내 특정 객체의 위치를 파악하는 과정으로, 주로 객체를 감싸는 경계 상자(바운딩 박스)의 정보를 출력합니다. 이 정보에는 경계 상자의 폭, 너비, 중심 좌표 등이 포함됩니다. 객체 탐지(Object Detection)는 이미지 내의 여러 객체를 식별하고, 각 객체의 위치와 클래스를 동시에 결정합니다. 출력에는 객체의 클래스, 해당 객체가 클래스에 속할 확률을 나타내는 신뢰도 점수, 그리고 객체의 위치를 나타내는 경계 상자의 정보가 포함됩니다.

이러한 작업들은 이미지를 해석하고 이해하는 데 필수적인 기본 단계를 제공하지만, 픽셀 단위의 정밀한 분석과 같은 더 복잡한 정보는 제공하지 않습니다. 이와 달리 이미지 분할과 같은 어려운 태스크는 이미지의 각 픽셀에 대한 상세한 정보를 제공하며, 따라서 더 정교하고 세밀한 이미지 이해를 가능하게 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.