딥러닝 텐서플로 교과서: 12.5.2 몬테카를로 트리 검색을 적용한 틱택토 게임 구현

다음은 보드를 이동하여 게임을 실행하는 과정입니다. X가 게임에서 승자가 되도록 게임을 진행하겠습니다.

 | |
-+-+-
 | |
-+-+-
 | |
당신 차례입니다,X. 어디로 이동할까요?
3
 | |X
-+-+-
 | |
-+-+-
 | |
당신 차례입니다,Y. 어디로 이동할까요?
1
Y| |X
-+-+-
 | |
-+-+-
 | |
당신 차례입니다,X. 어디로 이동할까요?
5
Y| |X
-+-+-
 |X|
-+-+-
 | |
당신 차례입니다,Y. 어디로 이동할까요?
2
Y|Y|X
-+-+-
 |X|
-+-+-
 | |
당신 차례입니다,X. 어디로 이동할까요?
7
Y|Y|X
-+-+-
 |X|
-+-+-
X| |
게임 종료.
---------- X가 승리했습니다. -----------

지금까지 강화 학습의 가장 기초적인 부분을 알아보았습니다. 강화 학습은 딥러닝의 꽃과 같은 분야로 그 내용이 상당히 어렵고 복잡합니다. 예제도 가장 기초적인 것만 다루었기 때문에 강화 학습에 관심이 많다면 강화 학습만 다루는 도서를 별도로 보는 것도 좋습니다.

추천 도서와 신규 콘텐츠를 먼저 받아보세요