实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源) 特点 自我对弈 详细注释 流程简单 代码结构 net:策略价值网络实现 mcts:蒙特卡洛树实现 server:前端界面代码 legacy:废弃代码 docs:其他文件 utils:工具代码 network.py:移植过来的网络结构代码 model_5400.pkl:移植过来的网络训练权重 train_agent.py:训练脚本 web_server.py:对弈服务脚本 web_server_demo.py:对弈服务脚本(移植网络) 1.1 流程 1.2策略价值网络 采用了类似ResNet的结构,加入了...