더북(TheBook)

1. Sparse Prompt

(points): 점 프롬프트는 이미지 내 특정 위치를 나타내는 데 사용됩니다. 위치 인코딩과 학습된 임베딩이 결합되어 생성됩니다. 이는 각 점의 공간적 위치 정보를 포착하며, 모델이 해당 위치에 집중할 수 있도록 합니다.

박스(boxes): 박스 프롬프트는 이미지 내 특정 영역을 지정하는 데 사용됩니다. 위치 인코딩과 학습된 임베딩의 결합을 통해 생성됩니다. 박스는 특정 영역의 위치와 범위 정보를 모델에 제공합니다.

텍스트(text): 텍스트 프롬프트는 자연어로 된 지시나 설명을 제공합니다. CLIP 모델의 출력을 활용합니다. CLIP은 텍스트와 이미지 사이의 관계를 학습한 모델로, 텍스트를 효과적으로 이미지 분석 작업에 연결할 수 있습니다.

2. Dense Prompt

Dense prompt는 마스크로 합성곱을 사용하여 임베딩됩니다. 이 임베딩은 이미지 임베딩과 원소별로 합산(element-wise)되어 이미지 분석 과정에서 풍부하고 구체적인 정보를 제공합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.