딥러닝 텐서플로 교과서: 12.5.1 몬테카를로 트리 탐색 원리

12.5.1 몬테카를로 트리 탐색 원리

몬테카를로 트리 탐색은 모든 트리 노드를 대상으로 탐색하는 대신 게임 시뮬레이션을 이용하여 가장 가능성이 높아 보이는 방향으로 행동을 결정하는 탐색 방법입니다. 즉, 경우의 수가 많을 때 순차적으로 시도하는 것이 아닌 무작위 방법 중 가장 승률이 높은 값을 기반으로 시도하는 것이 몬테카를로 트리 탐색입니다.

▲ 그림 12-16 몬테카를로 트리 탐색 원리

몬테카를로 트리 탐색 알고리즘은 총 네 단계로 학습합니다.

1. 선택: 루트 R에서 시작하여 현재까지 펼쳐진 트리 중 가장 승산 있는 자식 노드 L을 선택합니다. 이때 선택은 다음 수식을 사용합니다.

12.5.1 몬테카를로 트리 탐색 원리

추천 도서와 신규 콘텐츠를 먼저 받아보세요