더북(TheBook)

10.2.2 버트

2018년 11월, 구글이 공개한 인공지능(AI) 언어 모델 BERT(Bidirectional Encoder Representations from Transformers)(이하 버트)는 검색 문장의 단어를 입력된 순서대로 하나씩 처리하는 것이 아니라, 한 문장에서 모든 단어의 연관성을 이해하며 검색 문장을 처리하는 모델입니다.

5장에서 전이 학습을 배웠는데, 버트는 전이 학습 기법에 착안하여 자연어 처리에서도 사전에 학습된 신경망을 이용해서 목적에 맞게 후처리(미세 조정)하는 과정을 거쳐 사용합니다.

버트 모델은 전이 학습을 기반으로 한다고 했는데, 이때 전이는 인코더-디코더로 된 모델입니다. 기존 인코더-디코더 모델들과 다르게 CNN, RNN을 이용하지 않고 어텐션 개념을 도입했습니다. 버트에서 전이 학습은 인코더-디코더 중 인코더만 사용하는 모델입니다.

버트는 두 가지 버전이 있는데, BERT-base(L=12, H=768, A=12)와 BERT-large(L=24, H=1024, A=16)입니다. 이때 L은 전이 블록 숫자이고, H는 은닉층 크기, A는 전이 블록에서 사용되는 어텐션 블록 숫자입니다. 즉, L, H, A가 크다는 것은 블록을 많이 쌓았고, 표현하는 은닉층이 크며 어텐션 개수를 많이 사용했다는 의미입니다. BERT-base는 학습 파라미터 1.1억 개가 있고, BERT-large는 학습 파라미터 3.4억 개가 있습니다.

우리가 알아볼 것은 버트 구조가 아닌 버트를 활용한 임베딩 처리이기 때문에 이제 예제로 버트 사용 방법을 살펴보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.