各位 V 友好,分享一个最近做的 Chrome 扩展。
说话就能操作网页。比如"点击搜索按钮""描述这个页面""向下滚动",VoxSight 截屏后交给 Gemini 的多模态视觉模型分析,然后在页面上精确执行操作。
工作流程:
特点:
技术栈: Chrome MV3 + Gemini Live API (bidirectional streaming) + Cloud Run WebSocket
Chrome Web Store: https://chromewebstore.google.com/detail/voxsight/dfepmfcgbaceajaapbbakoikpfebeiic GitHub: https://github.com/calderbuild/voxsight
欢迎试用和反馈!
