[开源] 带领 AI 团队开发了一个极轻量的 GT AI Gateway:支持协议转换、请求查看,还能大幅降低 Claude Code 等调用成本

16 小时 15 分钟前
 AlexaZhou

大家好,最近带领 AI 团队,开发了一个轻量级大模型网关项目:GT AI Gateway

我们在平时开发和使用大模型 API 时,经常会碰到下面这些痛点:

  1. 费用黑洞:把 API Key 填进各种工具(比如最近很火的 Claude Code )里跑,额度跑飞了都不知道,缓存命中率极低,成本居高不下。
  2. 协议壁垒:手里的工具支持 Anthropic 协议,但上游 api 只有 openai 格式。
  3. 黑盒调试:Prompt 发出去之后,很难知道底层到底拼接了什么历史消息和工具调用,出了 Bug 只能靠盲猜。
  4. 共享风控:想把自己的 Key 分给朋友或小号用,但又怕他们不小心额度超标,或者直接泄露。

为了把这些问题一揽子解决,我写了 GT AI Gateway。它的定位是:轻量、全能、还能帮你省钱的透明代理

🌟 核心杀手锏

1. 智能请求拦截与缓存优化(帮你省钱) 这是个非常实用的特性。比如大家常用的 Claude Code,默认情况下它会注入很多随机标记,导致直接调用 OpenAI API 时**缓存命中率几乎为 0%**。 我们的网关在中间做了一层拦截与智能改写,能突破这种限制并最大化 Prompt Cache 。开启优化后,缓存命中率直接飙升到 97%,API 成本直降 10 倍以上!

2. 强大的双向协议转换 内置协议引擎,支持 OpenAI (Chat Completions/Responses API) 🔄 Anthropic (Messages) 双向无缝转换。你可以在客户端一行代码不改的情况下,用 OpenAI 的标准格式去白嫖/调用 Claude 模型(完美支持 SSE 流式返回、工具调用和多模态识图)。

3. 像 Wireshark 一样的流量分析面板 我们提供了一个自带管理后台的控制面板。所有经过网关的流量(包括普通的文本、复杂的 SSE 流)都会被记录下来。 打开可视化面板,你可以清晰地看到每一条请求的:完整 Prompt 、Token 消耗、缓存命中状态、耗时以及原始 JSON ,调试排障神器。

4. 完善的额度与多租户管理 你可以基于你的主 Key ,无限生成子令牌( Token )分发给其他人。并且可以给每个 Token 单独设置配额、计费费率、可用模型和过期时间,彻底杜绝 Key 滥用。

🚀 主打一个“部署零门槛”

针对不同的使用习惯,我们把部署做到了极致的灵活:

截图预览

对底层工具调用与 Prompt 的可视化抓取分析:

开启改写后,缓存命中率飙升:

🔗 传送门

代码质量经过了 500+ 测试用例的严格覆盖,如果觉得对你有帮助,欢迎各位 V 友来提 PR 或者给个 Star 支持一下!🙏 有任何问题或者特性需求也欢迎在帖子里讨论~


👨‍💻 关于开发团队

本软件由人类进行架构设计,由 TogoSpace AI Team 主力开发。项目通过了 500+ 个自动化测试用例对核心功能进行全面覆盖,确保了极其硬核的代码质量。

1298 次点击
所在节点    程序员
16 条回复
adfi1
15 小时 27 分钟前
看起来不错,我也写了一个这样的东西。看来大家都有需求。我是用 fastapi 写的
SoraStar
15 小时 24 分钟前
正在严肃试用,已 Star
AlexaZhou
15 小时 16 分钟前
@adfi1 是的,有这样的工具,用起来还是很方便的,也帮我看看这个还有什么需要改进的
AlexaZhou
15 小时 15 分钟前
@SoraStar 感谢试用,欢迎反馈意见呀
dfourc
14 小时 11 分钟前
暗自推自己的多 agent 工具,不过标下来源好像也正常?
ximaoyang
13 小时 21 分钟前
看着都累。
- 每天都想说一句:除了 A 家的其他都是垃圾。你都用 cc 了为啥内核要用 o 家的。买椟还珠。一个便宜的模型,再便宜,给你来几个死循环,额度一下就满了。而且还浪费你的时间和注意力。就只用 cc ,用它默认的 sonnet 就够了。
- 尽量多/new session ,保证上下文小一点,工作效率高的时候花钱还少。有的事情直接开 subagent 做或者开 -p 模式做。这些模式下的 agent 上下文是干净的,只加载需要的上下文。
- 别总是 ai 写代码,ai 自己审核,ai 测试,中间啥都不管。你别让 ai 自己审核自己,浪费 token 。我常常说 ai 写的代码没有小问题只有大问题。你就时不时自己看下 ai 在写什么。然后夺命连环问,一个 pr 问它个 20 次,做到自己虽然不写,但是心里有数。有问题别自己改,写到 CLAUDE.md 里面防止它再犯

你做到这些 token 使用率暴跌 90%,bug 率暴跌 90%,还不用整这啊那啊的工具框架,现在的工具框架自己都是 ai 几天写出来的垃圾项目,大家又不傻。
AlexaZhou
13 小时 11 分钟前
@dfourc 主要还是分享 GtAIGateway ,多 Agent 工具就是顺便提下😂,也让人知道有这么个东西,如果用不上忽略就好啦
AlexaZhou
13 小时 1 分钟前
@ximaoyang
老兄,这么说就有点狭隘了

1. “除了 A 家的其他都是垃圾”,我完全不同意这个,除了 A 家很多好模型,GLM 5.2 ,GPT5.5 ,DEEPSEEK V4 flash/pro ,都很好用,只是要有正确的使用方式才能发挥出来威力
2. “尽量多/new session ,保证上下文小一点,工作效率高的时候花钱还少” 这个想法已经过时了,就是要大上下文,把足够的信息都塞进去,模型才聪明。特别是使用 deepseek 的时候,不断 new 完全浪费钱,效果还差
3. “别总是 ai 写代码,ai 自己审核,ai 测试,中间啥都不管” 我也是不知道你这是说的谁,不懂


“现在的工具框架自己都是 ai 几天写出来的垃圾项目,大家又不傻”
批评之前还是先看看情况吧,这个项目从 25.2 月开始开发,累计提交超过 500 个 commit ,自用已经很完善了,才开放出来给大家
zuokanyunqishi
9 小时 52 分钟前
我试试你的到底,能省 token 不,和出的代码质量咋样.
zh3256
9 小时 4 分钟前
缓存率到 97 % 为何成本能降低 10 倍以上?
我理解即使 100 %缓存,也只是 prompt token 一折,算上 completion token 也没十倍。
iomect
8 小时 51 分钟前
你说的这些 AxonHub 好像都能实现啊 我公司分发一直用的 CPA+AxonHub
AlexaZhou
8 小时 40 分钟前
@iomect

感谢指出,不过功能还是差很多的,比如这几个功能,应该是属于 GtAIGateway 有而 AxonHub 没有:

1. 可以用可视化对话的方式来查看请求
2. 部署到免费的 serverless 平台上,如 cloudflare worker
2. 开箱可用的提升缓存命中改写功能( AxonHub 或许能手动写规则通过改写来实现,但手动也很麻烦)
AlexaZhou
8 小时 18 分钟前
@iomect
感谢指出,这个要看不同的模型,如果 gpt-5.5 来说,prompt token 确实是打一折。那么算下来应该是 9 点几倍;

对 deepseek 模型来说,缓存价格是普通输入的 1%,那么就超过 10 倍了;

所以之类用了 10 这样一个概数来表达大概的程度
Kinnice
5 小时 19 分钟前
@AlexaZhou
1 有
2 可以部署到腾讯云 edgeone
3 这个是不是就是把 cch 去掉了

问一个 axonhub 没有的,gpt5.5 在 cc 里面调用工具会出现多次尝试的问题,你这个实现修复了没?
AlexaZhou
4 小时 46 分钟前
@Kinnice

我测试过通过 GtAIGateway 的协议转换功能,让 cc 调用 gpt-5.5 模型,观察还挺正常的,你可以试试看,如果遇到问题跟我反馈,我来修复

回复下上面的:
1 “能” 我刚找到界面了,确实有这个功能。仔细比较了下,GtAIGateway 这块专门写的的渲染器,从美观和功能上做的更多一点

2 “AxonHub 部署到腾讯云 edge”,应该是需要额外自己再准备数据库😂,严格来说算半个 serverless 吧。GtAIGateway 不需要自己准备数据库,可以省去这部分成本和运维的麻烦

3 “这个是不是就是把 cch 去掉了”,cch 是很重要的一块,另外还有其他的如对 responses 协议的处理(粘性路由);后续还会不断扩展这部分逻辑,力求把缓存命中率提升上来


还有个差别是 GtAIGateway 有构建好的 App 提供,直接本机运行比较方便

以上内容无意引战,主要是解释下和其他工具不同的地方,方便大家理解
Kinnice
4 小时 26 分钟前
@AlexaZhou 主要是没有看到 你的这个轮子的止痛点,可以从大家的痛点再研究研究,搞出点差异化。

比如我自己的痛点是 模型 loadblance/自动重试/空回检测/真正的智能路由(比如我 hello/bash tool call ,后端期望可能是个 flash ,而我问了一个比较复杂的问题会切到 opus )成本探测/模型检验(是不是真 claude/gpt )/sub2api

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1221722

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX