더북(TheBook)

이미지 인코더 과정

1. 이미지 변환: 입력 이미지는 먼저 이미지 인코더를 통과합니다. 이 과정에서 이미지는 고차원 벡터, 즉 ‘이미지 임베딩(image embedding)’으로 변환됩니다. 이 임베딩은 이미지의 복잡한 시각적 정보를 압축적이고, 정제된 형태로 담아냅니다.

2. Masked Autoencoder의 필터링: MAE는 이미지의 중요 부분을 인식하고, 불필요한 정보를 걸러내는 역할을 합니다. 이는 효율적인 정보 처리를 가능하게 하며, 이미지의 핵심적인 특징만을 추출해냅니다.

3. ViT로 특징 추출: ViT는 이미지의 글로벌한 패턴과 지역적인 특징 사이의 관계를 잘 포착합니다. 이를 통해 이미지의 전반적인 구조와 세부적인 요소를 모두 포괄하는 강력한 특징 표현을 생성합니다.

4. 임베딩 생성: 생성된 임베딩은 모델의 다음 단계에서 활용됩니다. 이미지 인코더는 이러한 임베딩을 생성하는 과정에서 그 역할을 마치게 됩니다. 이후의 작업은 이 임베딩을 기반으로 수행됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.