全球首个！英伟达发布了一把用于“声音的瑞士军刀”

facai369 2024-11-26 科技生活 336 次浏览 0个评论

11月26日讯，英伟达近日展示了其最新研发的人工智能模型——Fugatto。

Fugatto是一款基于生成式Transformer架构的人工智能模型，其完整版配备了25亿个参数，并在由32个NVIDIA H100 Tensor Core GPU组成的NVIDIA DGX系统上进行了训练。

这款模型的主要功能在于能够修改和生成声音效果，专为音乐、电影和视频游戏制作人设计，英伟达将其形象地称为“声音的瑞士军刀”。

据NVIDIA应用音频研究经理Rafael Valle透露，Fugatto的研发初衷是创建一个能够像人类一样理解和生成声音的模型。

它支持多种音频生成和转换任务，是首个展示紧急属性的基础生成式AI模型，这得益于其各种训练能力的交互以及组合自由格式指令的能力。

Fugatto的功能十分强大，能够根据文本描述生成音效和音乐，例如将钢琴演奏转换成人声歌唱，或改变录音的口音和情绪。

对于音乐制作人而言，Fugatto可以帮助他们快速制作原型或编辑歌曲创意，尝试不同的风格、声音和乐器，同时添加效果并提高现有轨道的整体音频质量。

广告代理商则可以利用Fugatto快速定位多个地区或情况的现有广告活动，将不同的口音和情感应用于画外音。

视频游戏开发人员则可以使用该模型修改游戏中预先录制的素材，或根据文本说明和可选的音频输入动态创建新素材。

另外，Fugatto 的新颖性主要体现在以下方面：

首先，在推理过程中，该模型采用了称为ComposableART的技术，能够组合在训练期间只能单独看到的指令。

例如，通过组合提示，可以要求模型以法国口音说出带有悲伤情绪的文本。

此外，该模型在指令之间进行插值的能力使用户能够对文本指令进行精细控制，如重音的沉重程度或悲伤的程度。

其次，Fugatto还能够生成随时间变化的声音，NVIDIA将这一功能称为时间插值。

例如，它可以模拟暴雨穿过区域的声音，雷声逐渐增强，然后慢慢消失在远处。这一功能使用户能够精细地控制音景的演变方式。

最后，与大多数只能重现所接触的训练数据的模型不同，Fugatto允许用户创建以前从未见过的音景。

例如，它可以模拟雷雨随着鸟儿的歌声缓和为黎明的场景。

总而言之，Fugatto凭借其功能多样性和创新性，在音频领域具有广阔的发展空间。

转载请注明来自小白资讯，本文标题：《全球首个！英伟达发布了一把用于“声音的瑞士军刀”》

facai369 17317篇文章站点微博

好好学习天天向上

发表评论取消回复

评论列表（暂无评论，336人围观）参与讨论

facai369管理员

标签列表

全球首个！英伟达发布了一把用于“声音的瑞士军刀”

发表评论取消回复

还没有评论，来说两句吧...

网站分类

标签列表

最新留言

文章目录

facai369管理员

标签列表

全球首个！英伟达发布了一把用于“声音的瑞士军刀”

台媒：台防空警报发布线缩短，从过去70海里缩短至24海里 引发岛内质疑

中国人在加沙被扣？央视记者辟谣 没有中国人质

我驻美使馆回应特朗普妄言加征10%关税 无人能在贸易战中获胜

北京中公教育被强执24.7亿元 新增大量被执行人信息

指甲健康亮红灯？营养与真菌感染背后的惊人真相！

白斑困扰？教你如何辨别白癜风与花斑糠疹！

菲律宾首都最大贫民窟发生火灾 上千房屋被毁

地下室门上插钥匙却打不开 屋内有人声居民报警

发表评论取消回复

还没有评论，来说两句吧...

网站分类

标签列表

最新留言

文章目录

台媒：台防空警报发布线缩短，从过去70海里缩短至24海里引发岛内质疑

中国人在加沙被扣？央视记者辟谣没有中国人质

我驻美使馆回应特朗普妄言加征10%关税无人能在贸易战中获胜

北京中公教育被强执24.7亿元新增大量被执行人信息

菲律宾首都最大贫民窟发生火灾上千房屋被毁

地下室门上插钥匙却打不开屋内有人声居民报警