자연어 처리(NLP) 분야에서 이미 볼 수 있는 ‘기초 모델(foundation models)’의 개념을 이미지 분할에 적용하는 이 프로젝트는, 언어 모델이 다양한 작업과 데이터 분포에 대해 일반화할 수 있는 능력을 이미지 분할 문제에도 도입합니다. 이를 위해 대규모 데이터 세트에 대한 사전 훈련(pre-training)을 통해 모델이 새로운 이미지 분포와 작업에 대해 제로샷으로 일반화할 수 있도록 합니다. 이는 기존의 수동 레이블링 방식에 비해 더 빠르고 비용 효율적이며, 데이터의 다양성 측면에서도 우수합니다.
인공지능의 동향은 더 이상 모델 중심(model-centric)이 아닌 데이터 중심(data-centric) 시대로 변화하고 있습니다. 그렇기에 SAM의 대규모 데이터 세트인 SA-1B 데이터 세트 구축 방식에 대해 이해하는 것이 중요합니다.