더북(TheBook)

4. 데이터 증강(data augmentation)

데이터 증강은 기존 데이터셋을 변형해 새로운 데이터를 생성하는 방법입니다. 이는 데이터의 다양성을 높이고, 모델의 일반화 능력을 향상시키는 데 유용합니다. 문장 순서를 바꾸거나 일부 단어를 동의어로 교체하는 방식으로 데이터를 늘릴 수 있습니다.

역번역: 문장을 다른 언어로 번역한 후 다시 원래 언어로 번역하여 새로운 문장을 생성합니다. 이는 원래 문장의 의미를 유지하면서도 다양한 표현을 학습할 수 있습니다.

단어 치환: 문장에서 특정 단어를 동의어나 유사한 의미의 다른 단어로 대체합니다. 이는 모델이 다양한 표현을 이해하고 생성할 수 있도록 돕습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.