YOLO의 합성곱 신경망 설계는 이미지 분류를 목적으로 한 앞서 배운 구글넷에서 큰 영감을 받았습니다. 하지만 YOLO는 구글넷의 복잡한 인셉션 구조를 그대로 가져오는 대신, 1×1의 축소 층과 3×3의 합성곱 층의 조합을 사용하여 더 간결하면서도 효율적인 특징 추출 메커니즘을 구현하였습니다.
이 YOLO 모델은 주로 파스칼 VOC 데이터 세트에서 성능을 검증하기 위해 개발되었습니다. 파스칼 VOC는 객체 탐지와 이미지 분류, 분할 등 다양한 비전 연구를 위한 핵심 데이터 세트 중 하나입니다. VOC(Visual Object Classes)는 여러 객체 클래스들을 포함한 이미지로 구성되어 있으며, 실세계의 다양한 조건과 배경하에서 촬영된 이미지들로 구성되어 있습니다. 따라서 YOLO와 같은 모델이 파스칼 VOC에서 좋은 성능을 보인다면 실세계에서도 높은 성능을 기대할 수 있습니다.