응답
입력된 기사의 주요 내용을 강조하는 간략한 요약입니다. (※ 결과는 매번 달라질 수 있으므로 직접 확인하기 바랍니다. 이후에도 직접 확인이 필요한 경우 이와 같이 표시됩니다.)
• 데이터 증강(data augmentation): 데이터 증강은 기존의 데이터에 잡음(noise)이나 변형을 추가하여 인위적으로 확장된 데이터 집합으로 대규모 언어 모델을 학습시킵니다. 표식이 지정된 데이터가 제한적인 작업에서 LLM의 성능을 향상시킬 수 있는 방법입니다.
예를 들어 원본 학습 데이터가 날씨에 관한 1,000개의 문장으로 구성되어 있고, 확장 데이터가 원본 문장에 동의어를 추가하고, 문장을 다시 쓰고, 오타도 일부 넣어 생성한 추가적인 2,000개의 문장으로 구성되어 있다고 가정해 봅시다. 프롬프트는 다음과 같습니다.
프롬프트
각각의 문장을 맑은 날씨, 비 오는 날씨, 눈 오는 날씨로 분류하세요.
응답
확장된 학습 데이터 집합에서의 날씨 분류 예측입니다.