더북(TheBook)

▼ 표 2-1 트랜스포머 주요 구성 요소

구분

구성 요소

설명

입력

포지셔널 인코딩
(positional encoding)

- 입력 단어의 위치 값 추가

- 사인, 코사인 함수 이용

- RNN 미 적용으로 인한 단어 위치 문제 해결

인코더

인코더 셀프 어텐션
(encoder self-attention)

- 멀티 헤드 셀프 어텐션: 입력 토큰 병렬 처리

- Query=Key=Value

- 6개의 인코더가 이전 인코더의 어텐션 참조

피드포워드 신경망
(feed forward NN)

- Position-Wise 완전 연결망: 각 단어가 문맥에서 잘 이해될 수 있도록 벡터를 새로 만듦

- 잔차 연결 이용 및 정규화 수행: 잔차는 정보 손실과 기울기 소실 문제를 막아 학습을 안정화하고, 정규화는 데이터의 분포를 일정하게 유지

디코더

마스크드 셀프 어텐션

(masked self-attention)

- 멀티 헤드 셀프 어텐션: 입력 토큰 병렬처리

- 현재 이후 단어 마스킹 처리

- Query=Key=Value

인코더-디코더 어텐션

- 셀프 어텐션 아님

- 인코더 어텐션과 디코더 어텐션 결합 사용

- 인코더 셀프 어텐션=Key=Value

- 디코더 셀프 어텐션=Query

피드포워드 신경망

- 인코더 구조와 동일

출력

선형 계층

(Fully Connected Layer)

- 디코더 출력을 벡터화하여 신경망 연결

소프트맥스(softmax)

- 출력 단어 예측

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.