想寻找具有下列功能的 AI 模型:
- 接受声音波形(或傅立叶频谱瀑布图)作为输入;(波形输入)
- 文字输出;
- 能够以自然语言的方式表达对音乐的品鉴、赏析;(类比为就好像你用文生文模型品鉴古诗一样)
- hugging face 这样的平台有这类模型?关键字?类别? github 上有这样的 pre-trained 模型?
想寻找具有下列功能的 AI 模型:
1
Tamio Jun 21, 2025
接受声音文件的多模态都可以. 比如 gemini-2-flash 就支持
|