用视觉和 AI 把 Vimium 功能弄到全屏幕任意按钮

342 天前
 garywill

不管你用过 vim 没,vimium 应该体验过

搞的一个实验性玩意,目前只需要 300 行 python 代码,能粗浅地识别屏幕上任意位置的“物件”,并用键盘去点击它们

现在就只是简单地用了 opencv 的 MSER 算法

使用视觉的优势有:

  1. 跨平台
  2. 无论 GUI 库
  3. 无论 Accesebility API 是否可用

也已经有其他的能够在 Mac/Windows 上通过某些 API 找到按钮的项目(在 readme 里列出了)

虽然这种类型的软件里,好像只有浏览器上的 Vimium 成功了。其他的者还算在实验状态

若能把 AI 、API 、视觉三者结合,可能会比较好用。目前的演示看起来界面有点杂乱,想像改进后应该会好吧

各位有什么 idea 来 share 一下

1994 次点击
所在节点    奇思妙想
20 条回复
garywill
342 天前
SWALLOWW
342 天前
挺好的
expkzb
342 天前
会不会在辅助残疾人的功能里已经有类似的实现了
7gugu
342 天前
图有点小,看不清楚具体的作用
garywill
342 天前
@7gugu 把图点开呀
garywill
342 天前
@expkzb 有吗?残疾辅助不是干朗读文字之类的事吗?
7gugu
342 天前
@garywill 点开很糊,你那边能看清?
7gugu
342 天前
@garywill 噢,我的问题,插件默认只是放大了,没发现可以跳到图床上
zhangdszq
342 天前
PRStarDust
342 天前
之前用过一些全桌面的,要么速度不够快,要么就是准确度不够,经常有些按钮识别不出来或者错位
PRStarDust
342 天前
先 star 一波
zagfai
342 天前
我也有过这个想法,哈哈哈
iX8NEGGn
342 天前
哈哈,我也有过这想法,但界面一复杂后,一是识别正确率问题,二是就算识别正确也眼花潦乱,后来还是采用了 “眼动仪+ autohotkey + AI 修正” 来抛弃鼠标
anjiannian
342 天前
这个之前 vimperator 和 tridactyl 都有实现,他们用的是字母或者拼音的检索,不用二次确认选中的元素是 DE 还是 DF ,比如需要选择 vimium ,可以<leader>+f 之后直接敲 vim ,多个可以继续敲 ium 筛选
remenberl
342 天前
mac 上有 vimac 和 homerow.app 两者是一个作者
garywill
342 天前
@iX8NEGGn 哇你用了眼动仪?! 最终产品使用体验如何,快让我们看一看
20015jjw
342 天前
nice
hackpro
342 天前
@garywill #1 这个是 chrome extension 吗
是 python runas backgroud service 还是怎么用啊😄
garywill
341 天前
@hackpro 不是 extension ,就是直接在 windows/Linux 桌面上运行那个 python 文件
hackpro
341 天前
@garywill 明白 谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/941800

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX