랭체인으로 RAG 개발하기: 3.3 DeepSeek-R1의 원리 -3

강화학습

강화학습(RL, Reinforcement Learning)은 에이전트(Agent)가 환경(Environment)과 상호작용하며 보상(Reward)을 최대화하는 방향으로 행동을 학습하는 머신러닝의 한 종류입니다. 즉, 목표를 달성하기 위해 시행착오(Trial & Error)를 거치면서 최적의 행동을 찾아가는 과정입니다.

▲ 그림 3-9 강화학습

DeepSeek에서는 모델이 문제와 보상만을 통해 스스로 학습할 수 있도록 설계되었습니다. 지도학습(Supervised Learning)도 일부 활용되었지만, DeepSeek-R1-Zero 모델은 오직 강화학습만으로 학습되었다고 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.