BERT가 가진 또 하나의 장점은 논문의 제목에서도 알 수 있듯이, 사전 학습을 활용할 수 있도록 설계된 모델이라는 것입니다. 사전 학습(Pre-training)이란, 대용량 데이터가 가지고 있는 많은 정보를 딥러닝 모델에 미리 학습시킨 뒤, 학습된 모델을 다른 작업에 재사용할 수 있도록 구성하는 것을 말합니다. 지금까지 자연어 처리가 어려웠던 이유 중 하나는 데이터의 다양성을 주어진 훈련 셋만으로 모델에 충분히 학습시키기 힘들다는 점입니다.
‘언어(Language)’에는 오랜 시간 사람들의 커뮤니케이션에 사용되고, 새롭게 만들어지고, 다듬어진 역사가 깃들어 있습니다. 이 과정에서 생겨난 수많은 표현과 그것을 활용하는 경우의 수는 셀 수 없이 많습니다. 이 데이터를 모두 딥러닝 모델에 학습시키는 것은 웬만한 시간과 자원으로는 어려울뿐더러, 모든 데이터를 매번 새롭게 모든 데이터를 학습시키는 것은 상당히 비효율적입니다. 이때 사전 학습을 활용할 수 있다면 매번 대용량의 데이터를 학습시키지 않아도 데이터가 가진 언어의 다양성을 모델에 머금게 할 수 있고, 이로 인해 적절한 데이터만으로도 충분히 높은 성능을 낼 수 있게 됩니다. 이를 파인 튜닝(Fine-tuning)이라고 합니다. BERT의 저자는 논문 발표와 동시에 방대한 양의 텍스트 데이터를 사전 학습시킨 모델(Pretrained Model)을 같이 공개했습니다. 이로 인해 많은 사람이 BERT의 사전 학습 모델을 활용할 수 있었고 높은 수준의 결과를 내게 되었습니다.