英伟达推出 Fugatto:解锁音乐和音频创作的无限可能
芯片巨头英伟达于当地时间 11 月 25 日发布了一款名为 Fugatto 的人工智能模型,旨在为音乐、电影和游戏制作商提供前所未有的音频创作功能。
模型潜力:改变声音、创造新声音
Fugatto 是一个强大的音频生成模型,可以根据文本提示修改声音并产生全新的声音。它可以改变录音的口音和情绪,将钢琴演奏转换为人声演唱。
具体而言,Fugatto 可以:
* 分离歌曲中的人声并添加乐器
* 将钢琴的声音替换为歌剧歌手,改变旋律
* 创建“从未听过的声音”,例如让小号吠叫或萨克斯发出猫叫声
技术基础:建立在广泛的研究之上
Fugatto 建立在英伟达团队在语音建模、音频编码和音频理解等领域的既往工作之上。该模型使用 25 亿参数,并在包含 32 个英伟达 H100 Tensor Core GPU 的 NVIDIA DGX 超级计算机系统上进行训练。
为了构建 Fugatto,研究人员收集了数百万个音频样本的数据集,并创建了指令来扩展模型可执行的任务范围。这使模型在不需要额外数据的情况下实现更准确的性能和执行新任务。
推理创新:组合文本指令的灵活性
在推理过程中,Fugatto 使用称为 ComposableART 的技术来组合仅在训练期间单独看到的指令。组合提示词可以要求用法国口音讲述悲伤的文字,从而实现用户对文本指令的精细控制。
行业影响:为创造力带来新维度
英伟达表示,Fugatto 将为音乐、电子游戏和想要创造东西的普通人带来新的能力。它有潜力彻底改变我们创作和体验音频的方式。
“如果我们回顾过去 50 年的合成音频,现在的音乐听起来不同了,因为有了电脑和合成器,”英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗说,“生成式人工智能将为音乐、电子游戏以及想要创造东西的普通人带来新的能力。”
伦理考量:防止滥用和版权问题
Fugatto 的发布引发了关于潜在滥用的担忧,例如生成错误信息或侵犯版权。英伟达表示,他们正在讨论是否以及如何公开发布该模型。
“任何生成技术都会带来一些风险,因为人们可能会用它来生成我们不希望他们使用的东西。”卡坦扎罗表示。
英伟达强调谨慎对待模型的重要性,这就是为什么他们还没有立即发布它的原因。Fugatto 对音乐、音频和媒体创作的未来影响还有待观察,但其潜力无疑是巨大的。
原创文章,作者:讯知在线,如若转载,请注明出处:http://bbs.xzxci.cn/2024/11/29/24650.shtml