世界上最灵活的音响设备 Fugatto 首次亮相
一组生成式人工智能研究人员创造了一把声音瑞士军刀,它允许用户仅使用文本来控制音频输出。 虽然一些人工智能模型可以创作歌曲或修改声音,但没有一个模型具有新产品的灵活性。 被称为 富加托 (Foundational Generative Audio Transformer Opus 1 的缩写),它使用文本和音频文件的任意组合生成或转换提示描述的音乐、语音和声音的任意组合。 例如,它可以根据文本提示创建音乐片段,从现有歌曲中删除或添加乐器,改变声音中的口音或情感,甚至让人们发出以前从未听过的声音。 “这件事太疯狂了,”多白金制作人兼词曲作者、也是 一拍音频的成员 NVIDIA 创始阶段 尖端初创企业计划。 “声音是我的灵感。这就是我创作音乐的动力。我可以在录音室中即时创造全新的声音,这个想法令人难以置信。” 对音频的正确把握 “我们希望创建一个能够像人类一样理解和生成声音的模型,”NVIDIA 应用音频研究经理拉斐尔·瓦莱 (Rafael Valle) 说道,他是 Fugatto 背后的十几个人之一,同时也是一位管弦乐指挥家和作曲家。 Fugatto 支持众多音频生成和转换任务,是第一个基础生成式 AI 模型,它展示了新兴属性(由各种经过训练的能力交互产生的能力)以及组合自由格式指令的能力。 “Fugatto 是我们迈向未来的第一步,未来音频合成和转换中的无监督多任务学习将根据数据和模型规模而出现,”Valle 说。 用例播放列表示例 例如,音乐制作人可以使用 Fugatto 快速制作原型或编辑歌曲的想法,尝试不同的风格、声音和乐器。他们还可以添加效果并提高现有曲目的整体音频质量。 “音乐史也是一部技术史。电吉他给世界带来了摇滚乐。当采样器出现时,嘻哈音乐就诞生了,”兹米什拉尼说。 “借助人工智能,我们正在谱写音乐的下一个篇章。我们有了一种新乐器、一种制作音乐的新工具——这真是太令人兴奋了。” 广告公司可以应用 Fugatto 快速定位多个地区或情况的现有广告活动,对配音应用不同的口音和情感。 语言学习工具可以个性化,以使用说话者选择的任何声音。想象一下以任何家庭成员或朋友的声音讲授的在线课程。 视频游戏开发人员可以使用该模型修改其标题中预先录制的资产,以适应用户玩游戏时不断变化的动作。或者,他们可以根据文本指令和可选的音频输入动态创建新资产。 发出快乐的声音 “我们特别引以为豪的模型功能之一就是我们所说的鳄梨椅,”Valle 说,他指的是一款 新颖的视觉效果 由用于成像的生成式人工智能模型创建。 例如,Fugatto 可以发出喇叭声或萨克斯管喵叫声。用户可以描述什么,模型就可以创建什么。 通过微调和少量的歌唱数据,研究人员发现它可以处理未经预先训练的任务,例如根据文本提示生成高质量的歌声。 用户获得艺术控制 多项功能增加了 Fugatto […]
