AI 看视频,输出笔记哪家强?

1 天前
 junwind

各位大佬们,最近想学习下,但不想一个个花费大量时间看视频,哪家的 AI 能自己看视频,输出视频的文字笔记的。

1316 次点击
所在节点    问与答
26 条回复
coolxll
1 天前
gemini 和 youtube 整合的好
gotOwt
1 天前
同求一个能看 b 站的
huaweii
1 天前
我也有类似的需求。不过发现大部分都是语音转文字,一旦你的视频画面有大量语音没法覆盖的信息,基本上效果很差。

定制的多模态 agent 服务应该可以把画面和文字脚本结合的更好,等一个回复。
rcj6056
1 天前
听你这个需求是
我在 youtube 上看视频
然后视频结束了 ai 帮我整理 输出笔记吗?
junwind
1 天前
@rcj6056 差不多的意思,给个视频链接,或者视频文件,能帮我总结出图文笔记这种。其实就是代替自己看视频。毕竟看视频的效率太低了。
rcj6056
1 天前
@junwind 挺有意思 这种目前哪个实现的效果好?
junwind
1 天前
@rcj6056 我也不知道哪家大模型能做到很好的实现出来。这种应该是考验多模态的能力了。
junwind
1 天前
也就是大模型需要同时满足:能理解视频中的语音,图片,图片中的内容,以及把整体总结下来。 感觉也不是很容易。
furlxy
1 天前
@huaweii 光想想就知道要多费 token...
几个关键帧就要几次 vlm ,我的天
liudewa
1 天前
花钱用了几个 B 站的 感觉效果一般 原理都是先提取音频再音频转字幕,再把字幕扔给大模型总结
liudewa
1 天前
oppo 手机的小布 支持对 b 站视频总结 https://www.bilibili.com/video/BV1Q7WvzcE6z/
xigua11
1 天前
试试用百度网盘看视频
zazzaz
1 天前
目前的 token 成本控制下,免费方案基本是提取 CC 字幕来获取信息,而一些付费但价格较低的方案,也主要是把语音转成文字、再交给模型理解。
这其实并不是很多人想象中那种“让模型完整观看视频画面并讲解出来”的方式。
所以,如果视频的内容非常依赖画面信息——比如操作演示、图表分析、动态视觉内容等,这类依赖字幕或语音的方案,效果可能就会比较有限。
Sirius8
22 小时 34 分钟前
我找过,目前技术还不太行,市面上的都是基于字幕生成笔记,跟 3 楼说的一样,如果视频缺失部分字幕效果就大打折扣
junwind
22 小时 21 分钟前
@liudewa
@xigua11 好的,我试试。
pandatools
21 小时 55 分钟前
我用的音频转文字,新闻类和历史类的效果其实还不错,deepseek 模型基本可用,性价比挺高的
louisng
20 小时 39 分钟前
自己 vibe 了一个,不用看视频,直接用字幕来生成思维导图
https://github.com/louisdwu/auto_mindmap
likooo125802023
20 小时 23 分钟前
@junwind 先把语音转文字做好就行,这个总简单把
dreamwy1990
19 小时 19 分钟前
notebook
snowsirjjj
18 小时 48 分钟前
报错了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1191608

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX