deepseek 识别图像的疑惑

230 天前
 reDesign
DeepSeek R1 模型本身是不支持视觉(图像识别)的,DeepSeek 官方客户端的图像识别功能,虽然好像是只是 OCR 文字,但还挺好用的。但有一个问题是,官方客户端调用起来经常会失败,而第三方客户端或者是自己本地部署,又普遍不支持图像识别功能 有没有好的第三方客户端 能去很好的识别图像 然后再去喂给 DeepSeek R1 ?
4357 次点击
所在节点    程序员
12 条回复
Charon2050
229 天前
一个奇招:让另一个有视觉的模型事无巨细的描述图片内容,然后交给 R1 去推理
Charon2050
229 天前
这种自带识别的客户端肯定是没有的,估计要自己开发
reDesign
229 天前
@Charon2050 牛逼
sunnysab
229 天前
在用 ChatGLM 的免费图片描述 api ,不错。但是那个免费的对话 api 有点智商不足……
Darley
229 天前
估计还没有专门的,需要专门封装
Charon2050
229 天前
@sunnysab 特别可惜的是 GLM-4V-Flash 不支持 base64 编码图片,必须要上传到图床再发它 URL
sunnysab
229 天前
@Charon2050 可以的,你仔细看官方给的例子。

```python
async def describe_image(self, prompt: str, image: bytes | str) -> Optional[str]:
""" 图像描述 """
encoded_image = base64.b64encode(image).decode('utf-8')

response = await self.client.chat.completions.create(
model='glm-4v-flash', # TODO: 支持修改.
temperature=0.95,
top_p=0.70,
messages=[{'role': 'user', 'content': [
{'type': 'image_url', 'image_url': {'url': encoded_image}},
{'type': 'text', 'text': prompt},
]}],
)

completion_message = response.choices[0].message
response_text: str = completion_message.content
logger.debug(f'ChatGLM image description. response: {repr(response_text)}')

response_text = re.sub(r'\s\S\n', '', response_text)
return response_text
```
Charon2050
229 天前
@sunnysab #7 我测试下来是不行的哦,官网也有写 https://open.bigmodel.cn/dev/api/normal-model/glm-4v 注意同步调用 - Messages 格式 - url 那一行,「说明:GLM-4V-Flash 不支持 base64 编码」
sunnysab
228 天前
@Charon2050 你试下这段代码呢?我从我的项目里复制出来的。

https://gist.github.com/sunnysab/3123fd55c2ba2a2441a11c7494800a1b

我这边可以跑,正常识别,也确实是 4v-flash ,账号也是前几天创建的普通账号。虽然文档中 flash 模型提到不能用,但我没注意到...也一直这么用着的。好神奇啊!
Charon2050
227 天前
@sunnysab 我去,居然真的可以😲原来是我以前写错 messages 的格式了
NotAProgrammer
227 天前
@sunnysab #4 这个识别速度怎么样?
sunnysab
227 天前
@NotAProgrammer 1572*2097 的图,含上传时间,4-5 秒。他们官方有个在线模型调用,你可以在那计一下时,也可以申请个 key 跑我的代码 :D

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1108854

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX