为什么音频最近几年没有出现类似图片的 webp、视频的 vp9 av1 这样的低损高压缩率编码方式?

2022-12-15 20:06:27 +08:00
 edis0n0

自测了一下 vp9 还是挺强的,就是 youtube 码率给的太抠了导致暗处细节明显不如同分辨率 h264 。

5739 次点击
所在节点    程序员
49 条回复
dcsuibian
2022-12-16 03:03:22 +08:00
https://www.v2ex.com/t/884497
个人观点:音频压缩有用,但需求小,不出名。

与视频相比,音频的尺寸小多了,大家都能接受。
其次,音质的变化不明显,用户设备也不一定能听得出来。

至于图片压缩,更多的是担心带宽而不是流量和存储。如果图片不压缩,那么网页的加载时间就会变得很长,用户体验糟糕。而音视频都可以慢慢放。
msg7086
2022-12-16 03:18:37 +08:00
Opus 表示你在说什么? 64K 的 Opus 质量已经相当好了,96K 你已经基本听不出和高码 MP3 的区别了。
lhbc
2022-12-16 04:07:23 +08:00
其实音频编码的技术发展是 DTS-HD Master Audio 和 Dolby TrueHD
至于 web 端,没什么技术收益而且技术进步空间不大
gzlock
2022-12-16 04:25:19 +08:00
google lyra
meta encodec
BigShot404
2022-12-16 06:50:46 +08:00
音频格式并非越好越普及,而是兼容性和厂商支持排第一,就像当年 YAMAHA 的 VQF 明明压缩率和还原度都比 MP3 强,但就是普及不了。
wangsd
2022-12-16 10:33:19 +08:00
有啊 Opus
Slurp
2022-12-16 10:52:18 +08:00
Opus 已经够低了,而且是开放格式,任意商用。Discord 、腾讯会议、YouTube 都是这个方案。

有些垃圾游戏直接 wav 套层加密,导致安装包巨大的事就不多提了。
lslqtz
2022-12-16 12:04:16 +08:00
通常没有需求, 因为音频相比其它数据小了非常非常多, 无损压缩也不一定会有很大的压缩率差别, 而像 Opus 这种有损压缩编码器甚至整个有损音乐都已经在逐步被试图淘汰, 还有诸如 TAK 此类的格式一直比较冷淡. 总的来说在兼容性和效率方面考量都没有太大必要.
lslqtz
2022-12-16 12:05:42 +08:00
Google 的 VP9, 如果不是 YouTube 推动, 到现在必然也是一潭死水. 内容提供商的决定权才是最重要的.
当然, 部分厂商是在自己的客户端已经使用此类方案的, 只是不普及而已.
wxf666
2022-12-16 14:40:33 +08:00
@msg7086 @Slurp 其实我觉得,即使是 32K 时,AAC he_v2 的质量也比 OPUS 高(但专门转码人声的话,确实 OPUS 强)

@lslqtz 不会吧。。难道现在各种视频、应用等,都用的 FLAC 吗?
msg7086
2022-12-16 16:13:34 +08:00
@lslqtz 音频不一定是音乐。普通视频配套的音频一般没有保持无损的必要( 900k 的 flac 和 96k 的 opus 普通人的收听设备未必能分辨得出来区别)。收藏用 FLAC 真的就只是为了——收藏——而已。
noErr
2022-12-16 16:21:28 +08:00
@msg7086 正解
sgissb1
2022-12-16 16:36:03 +08:00
因为有很多学术流氓占据了这个领域,音视频领域是一个专业性很强的。

金字塔低端,用开源搭建一套音视频系统的水货满街爬,号称庄家一大堆,这群人解决了最原始的需求,但解决不了音视频中的技术难点和技术痛点。
金字塔顶端,做算法的,又是一群高知(资)人群占据(高资历,高学历),动不动就发 paper ,算法看上很牛逼,但是一工程化就遇到困难,或者一坨一坨的,技术有突破,有推进,但那也仅限于 demo 或者实验室环境。然后这群人里不乏一堆学术流氓,阶级固化比较严重。
金字塔中间,鱼龙混杂,这群人是工程实力有的,但有些人只是不够用,有些人只是过剩(和所处岗位有关)。

所以整个音视频格局里面的分工,包括编解码在内,想出一个可商业化的技术太难了。什么时候清晰化分工,明确技术层次上升通道,而不是看学历看背景,看会写 ppt ,这玩意就发展比较良性了。
sgissb1
2022-12-16 16:41:51 +08:00
很多规模大一点的公司,其实养着一大批算法高知,但也没看到他们的 paper 或者算法有真正落地的,这就是一大问题。而做工程的人,动不动就被业务追着打。

很多规模小一点的公司,他们虽然不怎么养算法高知,但对原始需求解决能力的人很渴望和需要,因此也不太愿意投入资金,因此也有不少从开源拿来主义的庄家,他们虽然解决了原始需求,创造了业绩,但对整个圈子技术推进很多时候意义不大,因为很多技术讨论的时候,你会发现对方说的东西,对于一个懂的人来说毫无意义。

这就是音视频行业的格局,因此这块的核心技术,其实还是被少数群体(不一定是公司)占据着。发展慢是完全正常现象。
byzod
2022-12-16 19:39:37 +08:00
可能是因为音频维度低吧

图像是二维的,眼睛的脑补已经很强了,但是低于一定质量时识别内容会变得非常困难,即使是对于满足功能性的图片,也有比较高的清晰度要求
而声音是一维的,天然的码率就低,而且对于语言这种接近于非模拟的信号,借助脑补其码率需求可以低到非常扣扣索索的程度。比如曾经的 amr 录音格式,甚至可以以 5kbps 的全损音质录音,而你还能听懂录的是啥

对于娱乐需求,质量的要求反过来了;按照水果的说法,解析度满足视网膜屏的标准后,再提高图片质量意义并不大,哪怕继续探求全色域 HDR ,由于技术原因并没有形成巨大需求;反倒是由于带宽的普遍提高,一般档次图片的流量越来越大,反向刺激了编码技术的发展
而 hifi 领域则可以说是无底洞,但是由于其特殊性,更多对质量的追求体现在硬件上,再加上图片创造者(广义上)远远多于音频创作者,其流量的大小远不足以刺激编码技术的发展

说到流量,除了流量,单位时间流量(生造词)也是影响编码需求度的重要因素。
由于视觉输入很快,图片的单位时间流量可以高到近乎无穷,滚轮一划拉,几十上百张图片就过去了;而不管是视频还是音频,都只能以 1.0x 最多 2.0x 的速度播放。一曲 20M 的无损音乐你能听上几分钟,而 20M 的高清图片只够划拉几秒,20M 的网络视频也能放几分钟……但是由于高清和 4k 显示器的出现,这个时间也在逐渐接近几秒
就这样,音频卡在了中间的尴尬地位,码率挺高,但又没有高到现有技术无法承担的程度,并且目测也不具有继续增加的趋势

对于这种问题,一般来说最经济合理的解决方案就是:不解决,凑合用
lzgshsj
2022-12-16 20:12:56 +08:00
因为事实就是世界上大部分人听不出 3-4MB 和 30-40MB 的音频的差距有多少,网不行就老老实实 128kbps 的 mp3 也无所谓。
楼上已经说很多了,在这上面投入成本和收益不对等,自然没有商业研究突破的热情。当然我还是相信总有一天会有技术突破。
PrinceofInj
2022-12-16 22:21:08 +08:00
二十年前我记得就在捣鼓 aac 和 flac ,那会儿还比较流行 ape 格式。我还记得再龙卷风上问过长期保存的 cd 盘应该用什么方式比较好,后来我决定用 aac 抓轨,结果就是那些 aac 文件我到现在还在听。悲观估计,再过二十年,还是 aac 和 flac 的天下
jim9606
2022-12-17 02:02:45 +08:00
音频这边的压缩改进主要不是用在网络流媒体上了,我知道这类技术用在蓝牙上还是有需求的,保持质量极限压低码率好在低带宽的 BLE 链路上传输。
edis0n0
2022-12-17 02:07:48 +08:00
@jim9606 对,昨天晚上睡觉的时候想到了这个,没补充上来
wxf666
2022-12-17 06:02:51 +08:00
@jim9606 和 AAC 相比咋样?可以代替它用于一般音频上吗?(比如视频中的音频流、平时音乐 /人声存储啥的)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/902799

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX