做了个可以在浏览器本地运行的类似 AlphaGo 的策略网络

之前用类似 AlphaGo 论文的方法训练了个策略网络，经过一番折腾，现在可在网页中直接用 JS 运行了（纯本地运行噢，感谢 MXnet 的 amalgamation 功能）。虽然 JS 比较慢，在电脑上每步要两秒钟（比 CPU 直接跑模型慢几十倍，比 GPU 慢几百倍），但实际在 iPhone7 上也能跑，速度不错（在安卓上就很慢了）。

点击打开： https://withablink.coding.me/goPolicyNet/

这里的策略网络的架构是 13 层 128 个 3x3 卷积，配合残差和 BN ，并且只用了 8 个特征平面（本方 /对手 /无子 /1 气 /2 气 /3 气 /4 气及以上 /上一手位置），同样实现了 KGS 测试集 54%+的准确率，而且训练速度非常快。

经测试，做为完全没有搜索的纯神经网络，棋力比 AlphaGo v13 的纯策略网络强，有奕城段位的水准（只要你不故意利用它的漏洞...比如它不会征子）。电脑的选点有时挺有意思，会发现一些狗的习惯。现在正在进行进一步强化学习中。

withablink

2017-03-07 15:01:53 +08:00

上张图吧。可以看到，在人机大战第四局第 78 手后，其实策略网络给出的选点是正确的（图中 123456789 代表对于下一手的推荐选点的前 9 位），说明当时 AlphaGo 很可能是价值网络 /Rollout 出了问题：

gam2046

2017-03-09 18:36:59 +08:00

@WildCat 这个也不一定，我相信也有一些人其实是和我一样，对神经网络、围棋都不怎么懂。虽然看着很厉害，但是也不知道能说些什么，那么就只能看看罢了。这又不是贴吧，没事水个顶、支持什么的。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/345589

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.