더북(TheBook)

5 패딩하기

 

자연어 처리를 하다 보면 각 문장(또는 문서)의 길이가 서로 다를 수 있다. 컴퓨터는 문서의 길이가 같아야만 하나의 행렬로 보고 한꺼번에 묶어서 처리할 수 있으므로, 병렬 연산을 위해서는 여러 문장의 길이를 동일하게 맞추는 작업이 필요하다.

다음 이미지의 검은색 부분처럼 문장의 길이가 상대적으로 짧은 경우 비워 두지 않고 0으로 채워서 길이를 일정하게 맞추는 것을 제로 패딩(zero-padding)이라고 한다. 보통 가장 긴 문장에 맞춰 나머지 문장에 0을 채운다.

 

그림 7-7 | 모델 크기가 5인 경우에 패딩 적용 전/후 예시

 

실제 데이터에 패딩을 적용해 독립 변수를 전처리해 보자. 문장의 길이가 제각각인 벡터의 크기를 패딩 작업으로 나머지 빈 공간을 0으로 채워 준다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.