12.5.1 몬테카를로 트리 탐색 원리
몬테카를로 트리 탐색은 모든 트리 노드를 대상으로 탐색하는 대신 게임 시뮬레이션을 이용하여 가장 가능성이 높아 보이는 방향으로 행동을 결정하는 탐색 방법입니다. 즉, 경우의 수가 많을 때 순차적으로 시도하는 것이 아닌 무작위 방법 중 가장 승률이 높은 값을 기반으로 시도하는 것이 몬테카를로 트리 탐색입니다.
▲ 그림 12-16 몬테카를로 트리 탐색 원리
몬테카를로 트리 탐색 알고리즘은 총 네 단계로 학습합니다.
1. 선택: 루트 R에서 시작하여 현재까지 펼쳐진 트리 중 가장 승산 있는 자식 노드 L을 선택합니다. 이때 선택은 다음 수식을 사용합니다.