[抛砖引玉] 利用 waifu2x 向上转採音讯

既然有了 Waifu2x 这种基于深度卷积神经网路来工作的图像放大工具，那么音讯采样应该也可以用类似的方法放大才对。

https://zhuanlan.zhihu.com/p/29618346

xiaome

2017-09-24 19:07:20 +08:00

这个感觉不是一个类型吧，图片的像素排列按照放大的比例可以推算出来，但是声音采样率不高的话就是从无到有了。
就算可以按照前面一个峰值来推算，效果也不会太好吧。
题外话，你这是香港或者台湾人？

ShikiSuen

2017-09-24 19:43:50 +08:00

@xiaome 之前的兼职翻译经历让我实在无法对咱们这边现行习惯的资讯电子术语体系感到适从，仅此而已。
明明就是记忆体，一开始被叫做内存，结果现在喵的内存又开始代指手机硬碟 /硬盘空间。
内啥存啊。

ShikiSuen

2017-09-24 19:45:09 +08:00

@xiaome 一言以蔽之，我的想法就是将音讯变成一张图片、然后交给 waifu2x 处理，以上。

lsylsy2

2017-09-24 19:56:26 +08:00

纯粹的“放大音频”不太可行，就是无中生有了；
但是给定“某种类型”的话，有可能可以做到，比如让模糊的人类语音变得更容易识别之类。

wjm2038

2017-09-24 21:42:00 +08:00

神经网络训练的目标不一样啊，再说转换为图片之后就不是可控制的优化了两

Quaintjade

2017-09-24 21:42:18 +08:00

@xiaome @lsylsy2
图像清晰化其实也是无中生有吧，低分辨率原图本身包含的有效信息量就那么多，upscale 靠的是计算机的“脑洞”来增补信息，和“眼中有码，心中无码”差不多。
这种“脑洞”本质上是预先存储的通用信息，不一定完全正确，但正确的概率很高。指定图片类型（现实?漫画?油画?）也是提供更多信息，让计算机知道应该使用哪种脑洞。

类比到音频，虽然低码率原音频包含的有效信息量不多，但也能靠“脑补”来增补信息。
最简单的例子是大部分声音频率都会有“泛音”，比如说原音频有较强的 3kHz 和稍弱的 6kHz，那么有很大概率会有 12kHz,24kHz 的泛音，可能还会有 9kHz,18kHz 的泛音（纯五度），强度依次减弱。
以前用这种方法手动粗暴伪造过高频，能骗过虾米审核，不过听起来不太好。如果机器学习能形成更好的“脑洞”应该是可以实现的。

minami

2017-09-24 22:24:40 +08:00

考虑到 FFT 后的音频数据也是二维张量，我觉得可行。但是不能直接套用 waifu2x 的预训练模型，甚至很可能要重新设计网络结构。
ps：我觉得可以结合 GAN，效果应该比显式套用损失函数好

zmj1316

2017-09-25 06:44:01 +08:00

大法的 dsee hx 就是类似吧

ShikiSuen

2017-09-26 14:03:04 +08:00

@zmj1316 那應該是針對整曲進行操作的。我在想 SONY 這種技術可能早就用在自家的 ACID Pro 了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/393254

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.