2021년, 오픈AI에서는 자연어 처리와 컴퓨터 비전을 결합한 모델인 CLIP(Contrastive Language-Image Pretraining)을 발표했습니다. 이 모델은 텍스트와 이미지 간 관계를 학습해 텍스트로 설명을 입력하면 해당 설명에 맞는 이미지를 검색하거나 생성할 수 있습니다. 자기 지도 학습 방식을 사용해 텍스트와 이미지를 동시에 학습하며, 두 모달리티(예 텍스트, 이미지) 간 대조적 관계를 이해합니다. 특히, 제로샷(zero-shot) 학습을 지원해 추가 훈련 없이도 새로운 태스크에서 높은 성능을 발휘합니다.
제로샷 학습은 학습하지 않은 새로운 데이터나 작업을 처리하는 능력을 의미합니다. 즉, 모델이 훈련 과정에서 한 번도 보지 못한 카테고리나 개념을 입력받았을 때 기존 지식을 활용해 이를 이해하고 예측하는 것입니다. 예를 들어 ‘사자’와 ‘호랑이’라는 동물만 학습한 모델이 있습니다. 이때 ‘표범’이라는 새로운 동물을 입력받으면, 모델은 ‘표범은 고양잇과에 속하는 동물’이라는 기존 지식을 바탕으로 이를 이해하고 분류합니다. 즉, 제로샷 학습은 훈련 데이터에 없던 개념도 기존에 학습한 특징, 관계, 지식을 활용해 처리하는 능력을 의미합니다.