做了个可以在浏览器本地运行的类似 AlphaGo 的策略网络

2017-03-07 15:01:26 +08:00
 withablink

之前用类似 AlphaGo 论文的方法训练了个策略网络,经过一番折腾,现在可在网页中直接用 JS 运行了(纯本地运行噢,感谢 MXnet 的 amalgamation 功能)。虽然 JS 比较慢,在电脑上每步要两秒钟(比 CPU 直接跑模型慢几十倍,比 GPU 慢几百倍),但实际在 iPhone7 上也能跑,速度不错(在安卓上就很慢了)。

点击打开: https://withablink.coding.me/goPolicyNet/

这里的策略网络的架构是 13 层 128 个 3x3 卷积,配合残差和 BN ,并且只用了 8 个特征平面(本方 /对手 /无子 /1 气 /2 气 /3 气 /4 气及以上 /上一手位置),同样实现了 KGS 测试集 54%+的准确率,而且训练速度非常快。

经测试,做为完全没有搜索的纯神经网络,棋力比 AlphaGo v13 的纯策略网络强,有奕城段位的水准(只要你不故意利用它的漏洞...比如它不会征子)。电脑的选点有时挺有意思,会发现一些狗的习惯。现在正在进行进一步强化学习中。

789 次点击
所在节点    AlphaGo
11 条回复
withablink
2017-03-07 15:01:53 +08:00
上张图吧。可以看到,在人机大战第四局第 78 手后,其实策略网络给出的选点是正确的(图中 123456789 代表对于下一手的推荐选点的前 9 位),说明当时 AlphaGo 很可能是价值网络 /Rollout 出了问题:

WildCat
2017-03-07 15:29:00 +08:00
膜拜下大神,自己打算月底入门下 DL 🙈
est
2017-03-07 15:36:01 +08:00
v 站上的分享越来越高端了。
langmoe
2017-03-07 15:46:35 +08:00
这个月的膝盖就给你了
WildCat
2017-03-08 17:05:21 +08:00
果然 V2EX 已经沦落为水站了,这种大神贴都没人来拜了
1069401249
2017-03-08 17:11:19 +08:00
666 大牛啊
antonlee
2017-03-09 10:20:50 +08:00
这个不错
qfdk
2017-03-09 14:56:27 +08:00
前排支持
gam2046
2017-03-09 18:36:59 +08:00
@WildCat 这个也不一定,我相信也有一些人其实是和我一样,对神经网络、围棋都不怎么懂。虽然看着很厉害,但是也不知道能说些什么,那么就只能看看罢了。这又不是贴吧,没事水个 顶、支持 什么的。
WildCat
2017-03-09 21:10:01 +08:00
@gam2046 额,好吧。您说的很对。
lovelinghan
2017-03-10 11:42:12 +08:00
膜拜

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/345589

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX