VoxSight - 用语音操控网页的 Chrome 扩展，基于 Gemini 多模态视觉 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

各位 V 友好，分享一个最近做的 Chrome 扩展。

VoxSight -- 用语音操控网页的 Chrome 扩展

说话就能操作网页。比如"点击搜索按钮""描述这个页面""向下滚动"，VoxSight 截屏后交给 Gemini 的多模态视觉模型分析，然后在页面上精确执行操作。

工作流程：

Alt+V 打开侧边栏
按住麦克风按钮说话（或按空格键）
VoxSight 截屏发给 Gemini Live API 分析
页面上执行操作，操作位置高亮显示
自动截屏验证结果

特点：

中英文语音命令，自动语言检测
基于截图分析，任何网站都能用，不需要网站做适配
高风险操作（提交、支付、删除）需要二次确认
WCAG 2.1 AA 无障碍支持：高对比度模式、可调字体大小、全键盘导航
隐私友好：不采集浏览历史，语音识别在浏览器本地运行

技术栈： Chrome MV3 + Gemini Live API (bidirectional streaming) + Cloud Run WebSocket

Chrome Web Store: https://chromewebstore.google.com/detail/voxsight/dfepmfcgbaceajaapbbakoikpfebeiic GitHub: https://github.com/calderbuild/voxsight

欢迎试用和反馈！

VoxSight 使用截图

目前尚无回复

语音网页 Chrome

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 4129 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 34ms · UTC 00:51 · PVG 08:51 · LAX 17:51 · JFK 20:51
♥ Do have faith in what you're doing.