最近刚把一个自己长期在用的小工具正式上线,算是一个比较偏「工程需求驱动」的 side project ,简单做个复盘分享。
这个项目叫 Image Describer,核心功能非常单一:
上传图片 → 输出结构化、可用的文字描述,并且支持多语言。
起因其实很现实。
我在做一些内容型网站和工具站时,经常会遇到这些问题:
现有的一些方案要么:
于是干脆自己做了一个。
围绕「可直接使用」这个目标,目前做了几种固定输出模式:
目前图片描述支持直接输出多种语言,包括:
不是先生成英文再机翻,而是在 prompt 和输出结构层面就按目标语言生成,主要是为了避免:
这个点在做多语言 SEO 或无障碍内容时还挺关键的。
很多时间其实花在调描述结构和边界情况上,而不是 UI 。
现在算是 第一版稳定可用,还有不少地方可以继续优化,比如:
如果你也有:
欢迎交流,也欢迎直接拍砖 🙏
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.