컴퓨터 비전에서 주로 활용하는 영상 정보는 밝기, 색상, 모양, 텍스처(texture) 등이 있으며, 이들 정보와 머신 러닝(machine learning) 알고리즘을 함께 사용하여 사물을 인지할 수 있습니다. 그러나 영상으로부터 유용한 정보를 추출하는 것은 쉬운 일이 아닙니다. 예를 들어 배경과 객체를 어떻게 구분해야 하는지, 빨간색을 판단하기 위해 어떤 수식을 사용해야 하는지, 둥근 윤곽인지 아닌지를 검사하기 위해 어떤 알고리즘이 적합한지 결정하기가 쉽지 않습니다. 사과와 토마토를 구분하기 위해 꼭지의 모양을 비교하고 싶은데, 꼭지 부분을 찾는 것이 새로운 문제가 되어 버리기도 합니다. 게다가 날씨 또는 시간대에 따른 조명 변화, 카메라 시점의 변화, 잡음 등의 영향으로 영상의 구성이 일관되지 않는 경우도 많습니다. 이처럼 영상 데이터에는 다양한 변형이 가해질 수 있기 때문에 영상을 제대로 분석하고 이해하기 위해서는 여러 방식으로 추출한 영상 정보를 복합적으로 사용해야 합니다. 그러므로 컴퓨터 비전에서는 영상으로부터 유용한 정보를 추출하는 방법과 추출된 정보를 효과적으로 사용하는 방법을 모두 다루고 있습니다.
컴퓨터 비전과 더불어 널리 사용되는 용어 중에 영상 처리(image processing)가 있습니다. 몇몇 학자들은 영상을 입력으로 받아 화질을 개선하는 등의 처리를 하여 다시 영상을 출력으로 내보내는 작업을 영상 처리라고 정의합니다. 그래서 영상 처리를 컴퓨터 비전의 전처리 과정으로 간주하기도 합니다. 반면에 영상을 다루는 모든 학문과 응용을 통틀어 영상 처리라고 하고, 그중 영상 인식과 같은 고수준의 처리를 컴퓨터 비전이라고 이야기하는 사람들도 있습니다. 사실 컴퓨터 비전과 영상 처리의 명확한 경계를 나누는 것은 매우 애매하며 많은 사람들이 컴퓨터 비전과 영상 처리를 혼용해서 사용합니다. 이 책에서도 컴퓨터 비전과 영상 처리 용어를 완전히 구분 지어서 다루지 않고 비슷한 의미로 사용합니다.