더북(TheBook)

2021년, Microsoft Research Asia에서 스윈 트랜스포머(Swin Transformer)를 발표했습니다. ViT는 패치 수가 증가함에 따라 연산량이 급격히 늘어나는 문제가 있었고, 이를 해결하기 위해 스윈 트랜스포머는 윈도우라는 개념을 도입했습니다. 이미지를 고정된 크기의 윈도우로 나눈 뒤, 각 윈도우 내에서만 셀프 어텐션을 수행해 연산량을 줄였습니다. 또한, 계층적(hierarchical) 구조를 채택해 이미지의 패치를 점진적으로 통합하며 학습합니다. 초기에는 작은 윈도우 크기에서 시작하고 점차 더 큰 윈도우를 사용해 정보를 통합합니다. 이를 통해 멀티스케일 특성을 학습할 수 있으며, 로컬 정보와 전역 정보를 모두 효과적으로 처리할 수 있습니다.

▲ 그림 1-32 스윈 트랜스포머와 비전 트랜스포머
출처: https://huggingface.co/docs/transformers/v4.39.1/model_doc/swin

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.