deepseek 识别图像的疑惑

DeepSeek R1 模型本身是不支持视觉（图像识别）的，DeepSeek 官方客户端的图像识别功能，虽然好像是只是 OCR 文字，但还挺好用的。但有一个问题是，官方客户端调用起来经常会失败，而第三方客户端或者是自己本地部署，又普遍不支持图像识别功能有没有好的第三方客户端能去很好的识别图像然后再去喂给 DeepSeek R1 ？

Charon2050

229 天前

一个奇招：让另一个有视觉的模型事无巨细的描述图片内容，然后交给 R1 去推理

Charon2050

229 天前

这种自带识别的客户端肯定是没有的，估计要自己开发

reDesign

229 天前

@Charon2050 牛逼

sunnysab

229 天前

在用 ChatGLM 的免费图片描述 api ，不错。但是那个免费的对话 api 有点智商不足……

Darley

229 天前

估计还没有专门的，需要专门封装

Charon2050

229 天前

@sunnysab 特别可惜的是 GLM-4V-Flash 不支持 base64 编码图片，必须要上传到图床再发它 URL

sunnysab

229 天前

@Charon2050 可以的，你仔细看官方给的例子。

```python
async def describe_image(self, prompt: str, image: bytes | str) -> Optional[str]:
""" 图像描述 """
encoded_image = base64.b64encode(image).decode('utf-8')

response = await self.client.chat.completions.create(
model='glm-4v-flash', # TODO: 支持修改.
temperature=0.95,
top_p=0.70,
messages=[{'role': 'user', 'content': [
{'type': 'image_url', 'image_url': {'url': encoded_image}},
{'type': 'text', 'text': prompt},
]}],
)

completion_message = response.choices[0].message
response_text: str = completion_message.content
logger.debug(f'ChatGLM image description. response: {repr(response_text)}')

response_text = re.sub(r'\s\S\n', '', response_text)
return response_text
```

Charon2050

229 天前

@sunnysab #7 我测试下来是不行的哦，官网也有写 https://open.bigmodel.cn/dev/api/normal-model/glm-4v 注意同步调用 - Messages 格式 - url 那一行，「说明：GLM-4V-Flash 不支持 base64 编码」

sunnysab

228 天前

@Charon2050 你试下这段代码呢？我从我的项目里复制出来的。

https://gist.github.com/sunnysab/3123fd55c2ba2a2441a11c7494800a1b

我这边可以跑，正常识别，也确实是 4v-flash ，账号也是前几天创建的普通账号。虽然文档中 flash 模型提到不能用，但我没注意到...也一直这么用着的。好神奇啊！

Charon2050

227 天前

@sunnysab 我去，居然真的可以😲原来是我以前写错 messages 的格式了

NotAProgrammer

227 天前

@sunnysab #4 这个识别速度怎么样？

sunnysab

227 天前

@NotAProgrammer 1572*2097 的图，含上传时间，4-5 秒。他们官方有个在线模型调用，你可以在那计一下时，也可以申请个 key 跑我的代码 :D

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1108854

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.