AI 看视频，输出笔记哪家强？

各位大佬们，最近想学习下，但不想一个个花费大量时间看视频，哪家的 AI 能自己看视频，输出视频的文字笔记的。

coolxll

1 天前

gemini 和 youtube 整合的好

gotOwt

1 天前

同求一个能看 b 站的

huaweii

1 天前

我也有类似的需求。不过发现大部分都是语音转文字，一旦你的视频画面有大量语音没法覆盖的信息，基本上效果很差。

定制的多模态 agent 服务应该可以把画面和文字脚本结合的更好，等一个回复。

rcj6056

1 天前

听你这个需求是
我在 youtube 上看视频
然后视频结束了 ai 帮我整理输出笔记吗？

junwind

1 天前

@rcj6056 差不多的意思，给个视频链接，或者视频文件，能帮我总结出图文笔记这种。其实就是代替自己看视频。毕竟看视频的效率太低了。

rcj6056

1 天前

@junwind 挺有意思这种目前哪个实现的效果好？

junwind

1 天前

@rcj6056 我也不知道哪家大模型能做到很好的实现出来。这种应该是考验多模态的能力了。

junwind

1 天前

也就是大模型需要同时满足：能理解视频中的语音，图片，图片中的内容，以及把整体总结下来。感觉也不是很容易。

furlxy

1 天前

@huaweii 光想想就知道要多费 token...
几个关键帧就要几次 vlm ，我的天

liudewa

1 天前

花钱用了几个 B 站的感觉效果一般原理都是先提取音频再音频转字幕,再把字幕扔给大模型总结

liudewa

1 天前

oppo 手机的小布支持对 b 站视频总结 https://www.bilibili.com/video/BV1Q7WvzcE6z/

xigua11

1 天前

试试用百度网盘看视频

zazzaz

1 天前

目前的 token 成本控制下，免费方案基本是提取 CC 字幕来获取信息，而一些付费但价格较低的方案，也主要是把语音转成文字、再交给模型理解。
这其实并不是很多人想象中那种“让模型完整观看视频画面并讲解出来”的方式。
所以，如果视频的内容非常依赖画面信息——比如操作演示、图表分析、动态视觉内容等，这类依赖字幕或语音的方案，效果可能就会比较有限。

Sirius8

22 小时 34 分钟前

我找过，目前技术还不太行，市面上的都是基于字幕生成笔记，跟 3 楼说的一样，如果视频缺失部分字幕效果就大打折扣

junwind

22 小时 21 分钟前

@liudewa
@xigua11 好的，我试试。

pandatools

21 小时 55 分钟前

我用的音频转文字，新闻类和历史类的效果其实还不错，deepseek 模型基本可用，性价比挺高的

louisng

20 小时 39 分钟前

自己 vibe 了一个，不用看视频，直接用字幕来生成思维导图
https://github.com/louisdwu/auto_mindmap

likooo125802023

20 小时 23 分钟前

@junwind 先把语音转文字做好就行，这个总简单把

dreamwy1990

19 小时 19 分钟前

notebook

snowsirjjj

18 小时 48 分钟前

报错了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1191608

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.