[白嫖指南] 无需 API Key 即可画图!我把 Gemini 网页版封装成了标准 MCP

11 小时 53 分钟前
 WJZ0821

项目地址 gemini-skill

使用示例

概要

大家平时在折腾大模型 Agent (或者用 Cursor 、Claude Desktop )时,如果想接入高质量的 AI 生图能力,往往会被 API Key 卡脖子——要么需要绑卡付费,要么有严格的区域和额度限制。

我个人一直使用的是 Gemini 的网页版生图能力,也就是 nano banana 2 模型,生图质量还是很不错的。但通过 API 调用的话就需要付费或者绑卡等繁琐操作,因此这个项目诞生了。

技术解析

原理是使用 puppeteer ,通过 CDP 连接一个独立的浏览器,接着封装一些函数供 AI 使用,我同时提供了 skills 和 MCP ,既可以接入龙虾,也可以在任何支持 mcp 的 agent 中使用。并且开浏览器的时候做了严格的反爬措施,我高强度使用一周有余,没有任何问题。并且内置了去水印服务,支持下载原图,并自动去除水印。

现在,不需要任何 API Key ,只要启动这个服务,你的 AI 代理就能直接在后台稳定地操纵 Gemini 为你生成并下载图片!

🚀 核心特性:这不是一个简单的 Selenium 脚本

为了做到工业级的稳定性,我在这套架构里下了不少猛药:

底层 CDP 协议直连,无视前端框架阻拦:

抛弃了脆弱的 UI 层 click(),直接通过 Chrome DevTools Protocol (CDP) 注入 V8 内存发号施令。解决了极其恶心的“幽灵 Hover”问题,并且直接通过 CDP 重定向下载目录,完美接管文件系统。

彻底解耦的微服务架构 (Daemon + Client):

脚本最怕什么?内存泄漏和僵尸进程。我将架构拆分为一个常驻后台的“浏览器守护进程 (Daemon)”和极度轻量的调用端。即使你的 AI 主程序崩溃了一万次,底层的 Chrome 依然稳如泰山,并且拥有 30 分钟无操作自动回收的续命机制。

完美接入 MCP 协议生态:

无需自己写恶心的正则解析和胶水代码,直接引入 @modelcontextprotocol/sdk 和 Zod 。这意味着,你的 Cursor 或 Claude Desktop 只需要一行 JSON 配置,就能立刻获得白嫖 Gemini 画图的超能力!

🩸 一些极其折磨人的踩坑复盘

在开发过程中,我被大厂的前端安全机制和操作系统底层 IO 毒打了一番,分享几个经典的天坑,帮大家避雷:

原本想通过 Canvas.toDataURL() 直接提取图片 Base64 ,结果被浏览器的同源策略和画布污染机制无情拦截,最后逼得我直接走 CDP 底层拦截文件流。

💡 如何使用 / 接入你的 Agent

由于采用了 MCP 标准,接入简直不要太爽。你只需要在你的 OpenClaw / Cursor 的配置里加上:

JSON
{
  "mcpServers": {
    "gemini_skill": {
      "command": "node",
      "args": ["/你的绝对路径/src/mcp-server.js"]
    }
  }
}

然后你就可以直接对你的 AI 说:“帮我画一张赛博朋克风格的机器猫”,后台会自动完成:冷启动高匿浏览器 -> 注入 Prompt -> 原生事件轰炸突破 UI -> 拦截下载落地 -> 返回成功回执!

注:以上的部分文本由 Gemini 润色,感觉比我写得好哈哈。

希望大家多多 star ,多多交流~

217 次点击
所在节点    分享创造
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1201116

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX