V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
fpy5627
V2EX  ›  分享创造

独立开发复盘:我做了一个支持多语言图片描述的 Image Describer

  •  
  •   fpy5627 · 11 小时 24 分钟前 · 245 次点击

    最近刚把一个自己长期在用的小工具正式上线,算是一个比较偏「工程需求驱动」的 side project ,简单做个复盘分享。

    👉 https://imagedescriber.dev/

    这个项目叫 Image Describer,核心功能非常单一:
    上传图片 → 输出结构化、可用的文字描述,并且支持多语言。


    为什么会做这个?

    起因其实很现实。

    我在做一些内容型网站和工具站时,经常会遇到这些问题:

    • 图片需要写 准确的 alt 文本 / 无障碍描述
    • 多语言站点,同一张图要输出 不同语言的描述
    • 不是「一句话糊过去」,而是要 能直接复制使用的描述文本

    现有的一些方案要么:

    • 输出太随意,不可控
    • 不支持多语言
    • 或者 UI / 流程对「批量使用」不友好

    于是干脆自己做了一个。


    目前支持的图片描述类型

    围绕「可直接使用」这个目标,目前做了几种固定输出模式:

    • 详细描述:场景、物体、人物、颜色、构图
    • 简要描述:一到两句话概括
    • 对象识别:列出主要元素
    • 多图批量处理

    多语言输出

    目前图片描述支持直接输出多种语言,包括:

    • 中文
    • English
    • 日本語
    • 한국어
    • Español
    • Français
    • Deutsch
    • Português

    不是先生成英文再机翻,而是在 prompt 和输出结构层面就按目标语言生成,主要是为了避免:

    • 专有名词被错误翻译
    • 描述风格不符合语言习惯

    这个点在做多语言 SEO 或无障碍内容时还挺关键的。


    技术实现上简单说几句

    • 前端:Next.js (偏 SEO / 工具站结构)
    • 后端:AI API (按不同描述模式做了拆分)
    • 部署:Vercel + Cloudflare
    • 重点不在「模型多炫」,而在 输出稳定性和可复用性

    很多时间其实花在调描述结构和边界情况上,而不是 UI 。


    目前状态 & 想听听反馈

    现在算是 第一版稳定可用,还有不少地方可以继续优化,比如:

    • 某些复杂场景下的描述颗粒度
    • 批量场景的交互体验
    • 不同语言下的语气一致性

    如果你也有:

    • 多语言站点
    • 无障碍 / alt 文本需求
    • 或者在做内容工具、图片相关项目

    欢迎交流,也欢迎直接拍砖 🙏

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4426 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 02:40 · PVG 10:40 · LAX 18:40 · JFK 21:40
    ♥ Do have faith in what you're doing.