이와 같이 강화 학습에서 에이전트는 행동을 선택하고 환경과 상호작용을 하는 학습 주체로, 상태를 인식한 뒤 행동을 선택합니다. 그 결과로, 에이전트가 상호작용을 하는 대상인 환경이 변하면 새로운 상태(환경이 에이전트에게 제공하는 정보)와 보상을 받게 됩니다. 보상은 에이전트가 특정 행동을 취한 후 얻는 값을 의미하며, 조건에 따라 주어지지 않을 수도 있습니다. 에이전트는 환경의 피드백을 바탕으로 행동의 결과를 학습합니다. 이 과정을 반복하면서 에이전트는 최적화 전략(policy)7을 학습하고, 누적 보상을 최대화하기 위한 행동 패턴을 찾아냅니다. 이렇게 에이전트는 환경과의 상호작용을 통해 상태, 행동, 보상 경험을 수집하며, 이를 바탕으로 목표 달성을 위한 강화 학습 모델을 형성합니다.
1990년대 후반부터 컴퓨터 하드웨어 성능이 향상되고, 2000년대에 들어 GPU(Graphics Processing Unit)와 같은 강력한 연산 자원이 발전하고 인터넷이 대중화하면서, 대용량 데이터에 접근할 수 있는 환경이 마련되었습니다. 이는 머신러닝 알고리즘이 방대한 데이터를 처리하며 복잡한 패턴을 학습할 수 있는 기반이 되었습니다.