딥러닝 텐서플로 교과서: 12.5.2 몬테카를로 트리 검색을 적용한 틱택토 게임 구현

다음은 보드를 이동하여 게임을 실행하는 과정입니다. X가 게임에서 승자가 되도록 게임을 진행하겠습니다.

 | |
-+-+-
 | |
-+-+-
 | |
당신 차례입니다,X. 어디로 이동할까요?
3
 | |X
-+-+-
 | |
-+-+-
 | |
당신 차례입니다,Y. 어디로 이동할까요?
1
Y| |X
-+-+-
 | |
-+-+-
 | |
당신 차례입니다,X. 어디로 이동할까요?
5
Y| |X
-+-+-
 |X|
-+-+-
 | |
당신 차례입니다,Y. 어디로 이동할까요?
2
Y|Y|X
-+-+-
 |X|
-+-+-
 | |
당신 차례입니다,X. 어디로 이동할까요?
7
Y|Y|X
-+-+-
 |X|
-+-+-
X| |
게임 종료.
---------- X가 승리했습니다. -----------

지금까지 강화 학습의 가장 기초적인 부분을 알아보았습니다. 강화 학습은 딥러닝의 꽃과 같은 분야로 그 내용이 상당히 어렵고 복잡합니다. 예제도 가장 기초적인 것만 다루었기 때문에 강화 학습에 관심이 많다면 강화 학습만 다루는 도서를 별도로 보는 것도 좋습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.