求助,图像内容理解方案推荐

79 天前
 Egfly
现在手上有一个项目,需要用几个简单的词描述一下图片里的内容、拍摄距离(远、中、近)、光线的亮度(低、中、高)。由于图片数量比较大,人工去处理比较慢。

目前考虑的方案有以下三个:

1 、使用 chatgpt 4, 实验之后感觉效果不错。缺点是速度比较慢,而且 chatgpt4 有使用频率限制,一天处理不了多少图片。不知道有没有其他的平台有提供类似的服务,最好是可以用 api 的方式调用

2 、自己租一台服务器,去跑模型,目前看了一下 minigpt4, 效果未知。有没有其他的模型推荐

3 、人工一张一张处理

大佬们,有没有其他什么好的方案推荐?
1301 次点击
所在节点    程序员
10 条回复
czfy
79 天前
“需要用几个简单的词描述一下图片里的内容”

举个例子,最后要描述成什么样
h272377502
79 天前
gpt4 不是提供了 api 了吗,minigpt4 和 gpt4 差距很大
Egfly
79 天前
@czfy 老哥,我 append 了
Egfly
79 天前
@h272377502 gpt4 api 有调用频率限制吗
dobelee
79 天前
看你的例子可不“简单”。图二需要通过 cake 等字眼结合分析才能得到是餐厅,图三需要识别麦当劳的 logo 才能得出是麦当劳的广告。一般给照片内容识别打标签的 AI 没训练到这程度吧,还是得上 chatgpt 或者 gemini 。
Egfly
79 天前
@dobelee 麦当劳和餐厅这个不是必要的,可以识别出是广告牌和门店招牌就行
jZEdn7k4
79 天前
你这个任务叫 image captioning ,github 用这个关键词搜一下,不少开源代码和模型的,当然质量比不上 gpt 也不会太差
Puteulanus
79 天前
我之前用过 IBM Watson Visual Recognition ,不知道现在还活着没
国内的用过腾讯的万象优图 https://cloud.tencent.com/document/product/460/39082
wangkai0956
79 天前
人工,增加工作机会,造福社会
vivisidea
79 天前
https://huggingface.co/models?other=image-captioning

调用 gpt 的 api 或者找找开源的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1017094

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX