为啥 m1max cpu 跑深度强化学习比 3900x + 2080s 的台式机快好多

叠甲：没系统学过深度学习和强化学习，所以可能不是很了解一些基础知识。

最近想训练一个二维迷宫寻路智能体，从 linyiYi 这里抄了一个他贪吃蛇 ai 的板子拿过来改
https://github.com/linyiLYi/snake-ai

但是发现训练的时候，训练速度 m1max cpu >>> 2080s > m1max mps > 3900x cpu
代码在这里： https://github.com/abmcar/NavigateAi/tree/main/main
模型基本上都是用的默认的参数

对这个训练速度的差异很奇怪，是因为我台式机没有配置好环境还是因为我训练的内容恰好适合 m1max cpu?

另外想问一下，像这种简单问题，是不是调一个好的 reward 策略之后训练起来很快啊？之前跑没有加障碍物的 env ，跑了 5e7 步才能做到走最短路不撞墙一直吃到果子，感觉是 reward 没设置好。如果训练效果跟 reward 策略强相关的话，我需要学习一些理论知识来制定 reward 策略吗？或者还需要自己根据实际 env 手写模型并且调参？
下面是之前无障碍的 reward 策略，https://github.com/abmcar/NavigateAi/blob/4d8cd82323305d69b65cfd21fb7a58808b992232/main/navigate_game_custom_wrapper_mlp.py

wsinglewell

2024-03-15 14:30:46 +08:00

说错了速度应该是
m1max cpu >> 3900x >> 2080s cuda >> m1max mps
m1max cpu 2 iterations 用时 8.1s 1e5 step 15s
m1max mps 2 iterations 用时 135s 1e5 step 240s
2080s cuda 2 iterations 用时 65s 1e5 step 120s
3900x cpu 2 iterations 用时 26s 1e5 step 48S

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1023964

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.