最近刚把一个自己长期在用的小工具正式上线,算是一个比较偏「工程需求驱动」的 side project ,简单做个复盘分享。
👉 https://imagedescriber.dev/
这个项目叫 Image Describer,核心功能非常单一:
上传图片 → 输出结构化、可用的文字描述,并且支持多语言。
为什么会做这个?
起因其实很现实。
我在做一些内容型网站和工具站时,经常会遇到这些问题:
- 图片需要写 准确的 alt 文本 / 无障碍描述
- 多语言站点,同一张图要输出 不同语言的描述
- 不是「一句话糊过去」,而是要 能直接复制使用的描述文本
现有的一些方案要么:
- 输出太随意,不可控
- 不支持多语言
- 或者 UI / 流程对「批量使用」不友好
于是干脆自己做了一个。
目前支持的图片描述类型
围绕「可直接使用」这个目标,目前做了几种固定输出模式:
- 详细描述:场景、物体、人物、颜色、构图
- 简要描述:一到两句话概括
- 对象识别:列出主要元素
- 多图批量处理
多语言输出
目前图片描述支持直接输出多种语言,包括:
- 中文
- English
- 日本語
- 한국어
- Español
- Français
- Deutsch
- Português
不是先生成英文再机翻,而是在 prompt 和输出结构层面就按目标语言生成,主要是为了避免:
这个点在做多语言 SEO 或无障碍内容时还挺关键的。
技术实现上简单说几句
- 前端:Next.js (偏 SEO / 工具站结构)
- 后端:AI API (按不同描述模式做了拆分)
- 部署:Vercel + Cloudflare
- 重点不在「模型多炫」,而在 输出稳定性和可复用性
很多时间其实花在调描述结构和边界情况上,而不是 UI 。
目前状态 & 想听听反馈
现在算是 第一版稳定可用,还有不少地方可以继续优化,比如:
- 某些复杂场景下的描述颗粒度
- 批量场景的交互体验
- 不同语言下的语气一致性
如果你也有:
- 多语言站点
- 无障碍 / alt 文本需求
- 或者在做内容工具、图片相关项目
欢迎交流,也欢迎直接拍砖 🙏