▼ 표 2-1 트랜스포머 주요 구성 요소
|
구분 |
구성 요소 |
설명 |
|
입력 |
포지셔널 인코딩 |
- 입력 단어의 위치 값 추가 - 사인, 코사인 함수 이용 - RNN 미 적용으로 인한 단어 위치 문제 해결 |
|
인코더 |
인코더 셀프 어텐션 |
- 멀티 헤드 셀프 어텐션: 입력 토큰 병렬 처리 - Query=Key=Value - 6개의 인코더가 이전 인코더의 어텐션 참조 |
|
피드포워드 신경망 |
- Position-Wise 완전 연결망: 각 단어가 문맥에서 잘 이해될 수 있도록 벡터를 새로 만듦 - 잔차 연결 이용 및 정규화 수행: 잔차는 정보 손실과 기울기 소실 문제를 막아 학습을 안정화하고, 정규화는 데이터의 분포를 일정하게 유지 |
|
|
디코더 |
마스크드 셀프 어텐션 (masked self-attention) |
- 멀티 헤드 셀프 어텐션: 입력 토큰 병렬처리 - 현재 이후 단어 마스킹 처리 - Query=Key=Value |
|
인코더-디코더 어텐션 |
- 셀프 어텐션 아님 - 인코더 어텐션과 디코더 어텐션 결합 사용 - 인코더 셀프 어텐션=Key=Value - 디코더 셀프 어텐션=Query |
|
|
피드포워드 신경망 |
- 인코더 구조와 동일 |
|
|
출력 |
선형 계층 (Fully Connected Layer) |
- 디코더 출력을 벡터화하여 신경망 연결 |
|
소프트맥스(softmax) |
- 출력 단어 예측 |