mac 上基于麦克风和系统音频的会议事实转录和 AI 总结工具

250 天前
 lonccc
之前一直用 teams 开会讲英文的时候喜欢打开 transcribe ,最近换了一个会议软件没有这个功能了。mac 自带的 caption 在投屏的时候有 bug 显示不出来,想找一个第三方软件,试了两个(应用商店 Noted ,Whisper Transcription )都不太行,要不语音识别质量太差,要不是离线识别。

我感觉以现在的技术在 mac m 芯片上做一个实时转录再结合 LLM 做会议总结完全可行。我之前用过 mac 自带的 speech recognition api ,效果非常好,比 whisper 快且准确,可以结合 VAD ( https://github.com/snakers4/silero-vad ),说话人识别( optional ),做成 AI 会议记录 app 。

不止用在在线会议,线下会议也可以。我感觉大有可为呀,上面两个 APP 我试用的都卖 20-30 刀一年,好评也很多。问问大家目前市面上有类似的 app 吗,没有的话我要自己业余写一个,核心可以开源,只提供 cli 界面,再做一个完整 app 出来卖。
1294 次点击
所在节点    问与答
7 条回复
lonccc
250 天前
btw ,还有一类 ai 工具是要加入会议室才能用,比如 https://otter.ai 。我们之前开会的时候都很排斥这种,一个第三方 app 加入会议室感觉很不好,毕竟大家还开了摄像头有时候还会共享屏幕。只基于本地的音频就更通用了,而且线下也能用。
YJi
250 天前
/t/1084519 之前好像有过类似讨论
ivyliner
250 天前
@lonccc 可以看看我开发的 App: BeMyEars https://www.engineerdraft.com/bemyears/ , 目前还差一个会议总结, 后续可以加一下.
lonccc
250 天前
@ivyliner #3 对,就是我想的用 apple 自带的语音识别,效果很好。可以考虑往会议记录的方向做做,像这样 https://apps.apple.com/us/app/noted-record-ai-transcribe/id1446580517 按录音的时间轴显示文本,再加一个会议总结
ivyliner
250 天前
@lonccc #4 我简单看了一下感觉 noted 做的挺好的, 你是有什么不太满意的 ?
lonccc
250 天前
@ivyliner #5 app 设计的还可以,但是识别的效果很差,很奇怪我安装之后没申请语音识别权限,也不能选择系统音频还是 app 音频。可能他们没用 apple 的语音识别
ivyliner
250 天前
@lonccc #6 我仔细试了一下 noted 发现有不少问题. 严格说我都用不上, 一打开就崩溃.
底层的话, 用的是 whisper base 模型, 所以不可能很准确. BeMyEars 和 YPlayer 在实时性和准确性上可以吊打 noted :-)
其中 YPlayer https://www.engineerdraft.com/yplayer/ 在中文转录上应该比 Whisper Transcription 还要好, 英文打平手, 因为都用的是 whisper :-)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1104887

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX