더북(TheBook)

2장

2-1 비디오 데이터에 자기 지도 학습을 적용하는 한 가지 방법은 비디오의 다음 프레임을 예측하는 것입니다. GPT 같은 대규모 언어 모델의 다음 단어 예측과 비슷합니다. 모델은 시퀀스에서 후속 이벤트나 움직임을 예상해야 하며 시간 흐름에 따라 콘텐츠를 이해해야 합니다.

또 다른 방법은 누락되거나 마스킹된 프레임을 예측하는 것입니다. 이는 특정 단어를 마스킹하고 이를 예측하는 작업을 수행하는 BERT 같은 대규모 언어 모델에서 영감을 받았습니다. 비디오의 경우 전체 프레임이 마스킹될 수 있으며, 모델은 주변 프레임의 문맥을 사용해 마스킹된 프레임을 보간하고 예측하는 방법을 학습합니다.

인페인팅(inpainting)은 비디오에서 자기 지도 학습을 위한 또 다른 방법입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.