더북(TheBook)

고품질 데이터

강화학습만을 사용하여 모델을 학습시키면, 답변이 일관되지 않거나 문장이 어색하게 뒤섞이는 문제가 발생할 수 있습니다. 특히 초기 단계에서는 모델이 자연스러운 언어 구조를 형성하지 못해, 의미 전달이 어려운 경우가 많습니다. 이를 해결하기 위해 DeepSeek-R1에서는 학습 초기 단계에서 소량의 ‘고품질 예시 데이터’를 모델에 제공하여, 답변의 형식과 논리 구조를 정교하게 다듬는 과정을 거쳤습니다.

이후 학습이 진행됨에 따라 점점 더 복잡한 문제를 중심으로 다단계 강화학습을 적용하여 모델의 추론 능력을 점진적으로 향상시켰습니다. 특히 고난도의 논리 문제나 복합적인 의사결정을 요구하는 질문들을 중심으로 학습하면서, DeepSeek-R1이 더욱 논리적이고 일관된 답변을 생성할 수 있도록 강화되었습니다. 이러한 접근 방식은 모델이 더욱 자연스럽고 신뢰도 높은 결과를 도출하는 데 핵심적인 역할을 했습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.