求助，图像内容理解方案推荐

2024 年 2 月 21 日

Egfly

现在手上有一个项目，需要用几个简单的词描述一下图片里的内容、拍摄距离（远、中、近）、光线的亮度(低、中、高)。由于图片数量比较大，人工去处理比较慢。

目前考虑的方案有以下三个：

1 、使用 chatgpt 4, 实验之后感觉效果不错。缺点是速度比较慢，而且 chatgpt4 有使用频率限制，一天处理不了多少图片。不知道有没有其他的平台有提供类似的服务，最好是可以用 api 的方式调用

2 、自己租一台服务器，去跑模型，目前看了一下 minigpt4, 效果未知。有没有其他的模型推荐

3 、人工一张一张处理

大佬们，有没有其他什么好的方案推荐？

1907 次点击

所在节点

程序员

10 条回复

jr55475f112iz2tu

2024 年 2 月 21 日

“需要用几个简单的词描述一下图片里的内容”

举个例子，最后要描述成什么样

casatAway

2024 年 2 月 21 日

gpt4 不是提供了 api 了吗，minigpt4 和 gpt4 差距很大

Egfly

2024 年 2 月 21 日

@czfy 老哥，我 append 了

Egfly

2024 年 2 月 21 日

@h272377502 gpt4 api 有调用频率限制吗

dobelee

2024 年 2 月 21 日

看你的例子可不“简单”。图二需要通过 cake 等字眼结合分析才能得到是餐厅，图三需要识别麦当劳的 logo 才能得出是麦当劳的广告。一般给照片内容识别打标签的 AI 没训练到这程度吧，还是得上 chatgpt 或者 gemini 。

Egfly

2024 年 2 月 21 日

@dobelee 麦当劳和餐厅这个不是必要的，可以识别出是广告牌和门店招牌就行

jZEdn7k4

2024 年 2 月 21 日

你这个任务叫 image captioning ，github 用这个关键词搜一下，不少开源代码和模型的，当然质量比不上 gpt 也不会太差

Puteulanus

2024 年 2 月 21 日

我之前用过 IBM Watson Visual Recognition ，不知道现在还活着没
国内的用过腾讯的万象优图 https://cloud.tencent.com/document/product/460/39082

loi1noG2463cVpXu

2024 年 2 月 21 日

人工，增加工作机会，造福社会

vivisidea

2024 年 2 月 21 日

https://huggingface.co/models?other=image-captioning

调用 gpt 的 api 或者找找开源的

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1017094

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.