大佬们是怎么解决 glm5.2 无法处理视觉理解的问题的

现在用的火山引擎的 codig plan ，对 glm5.2 非常满意，但是么美中不足，现在没办法处理视觉理解。我看之前 glm5.1 也是文本模型，是怎么做到可以处理视觉理解的，现在 5.1 下架了。

7 replies • 2026-06-29 15:09:20 +08:00

jotsai

3h 38m ago

QingmuSanren

3h 29m ago

@jotsai glm 的 coding plan 根本抢不到啊，痛，现在只能退而用火山。看大佬发的视觉理解 mcp ，文中说的大概意思就是，再买点搭配的视觉模型 token 一起用？

jotsai

40 mins ago

@QingmuSanren 这个 MCP 应该只是给 GLM Coding Plan 补视觉短板的，非 GLM Coding Plan 的我感觉直接接 1 个原生多模态的大模型比较好吧

yvyvyv

17 mins ago

让 claude 用文字描述出来

skyemin

13 mins ago

质谱和 coding plan 和火山里面用 glm5.2 的模型有区别吗

106npo

5 mins ago

5.1 是用 4v 外挂识别的
你让 agent 写个 tool ,找个支持视觉输入的模型去按要求描述图片.但肯定效果没原生支持视觉的模型好

QingmuSanren

Just Now

@yvyvyv 怎么说大佬