ОбложкаНовостиСтатьиАнонсы | РелизыИнтервьюДевайсы |
| ВходРегистрация |
РекламаПрислать новость |
Nvidia, не так давно обогнавшая Apple и ставшая самой дорогой компанией в мире, представила генеративную модель Fugatto, которая может создавать звуки, эффекты, музыку, речь и другое аудио на основе текстовых запросов. От других подобных разработок Fugatto отличается тем, что может синтезировать уникальные звуки, которых не существовало ранее. Представители Nvidia считают, что модель «понимает и генерирует звук, как люди».
• Благодаря технике умозаключений ComposableART ИИ понимает и объединяет текстовые промпты для генерации и редактирования аудио, а также управляет дальнейшими деталями синтезируемого материала.
• Fugatto уже на данном этапе может создавать аудио даже по не самым стандартным описаниям, вроде «сделай лающий саксофон» или «заставь трубу выть и затем перейти в электронную музыку».
• Для звуковых эффектов можно задавать промпты наподобие «покажи глубокие низкие пульсации с прерывистыми и высокими цифровыми звуками, как будто пробуждается огромная разумная машина».
• Также ИИ может редактировать музыку: изолировать дорожки, выделять акапеллы или добавлять новые партии и менять мелодии.
• Аудио одних инструментов можно преобразовать в другие — например, из партии пианино сделать оперное пение.
• Модель генерирует голоса с указанными акцентами, тембрами и эмоциями, которые достаточно указать промпте вместе с самим текстом или фразой.
Из большого сопровождающего документа становится понятно, что Fugatto обладает 2,5 млрд параметров, а обучение происходило на гигантском объеме открытых данных, включая библиотеку эффектов BBC и миллионы аудиопримеров. Благодаря специальным инструкциям удалось расширить область задач, которая решается моделью, улучшить точность и позволить выполнять новые задачи без внесения дополнительных данных.
Сейчас Nvidia не уточняет, станет ли Fugatto доступен для широкого использования. Но, по замыслу авторов, инструмент может быть полезен музыкантам и продюсерам для быстрого создания черновиков или прототипов треков, разработчикам видеоигр, специалистам из рекламы и маркетинга.