Теперь артисты могут узнать, использовалась ли их музыка для обучения нейросетей

Издание The Atlantic представило публичный поисковый инструмент AI Watchdog, позволяющий музыкантам проверить, попали ли их треки в датасеты, применявшиеся для обучения ИИ-моделей.

Расследование

Инструмент создан в рамках масштабного расследования журналиста Алекса Райзнера о внутренних механизмах генеративных ИИ-систем — изначально оно было посвящено книгам, научным статьям и видео. Но теперь проект распространился и на музыку: вместе с новым текстом «Миллионы треков, перемолотые в ИИ-генерируемую музыку» издание открыло поиск по датасетам, которые использовали, в частности, компании Google и Stability AI.

Инструмент охватывает четыре датасета: крупнейший содержит 12 млн треков, второй — 9 млн, еще два — свыше 100 000 каждый; большинство записей распространялись под лицензиями Creative Commons, которые обязывают указывать авторство и запрещают коммерческое использование. Треки собирались преимущественно по ссылкам с YouTube и Spotify с помощью инструментов автоматизации, часть которых позволяла обходить авторизацию, рекламу и другие механизмы монетизации. Разумеется, за рамками четырех обнаруженных датасетов может существовать множество других.

Реакция артистов

Расследование и инструмент быстро вызвали волну обсуждений в музыкальном сообществе. Согласно данным поиска, к примеру, у Skrillex, Peggy Gou и Bicep в базах насчитываются десятки треков, андеграундные исполнители также находят свою музыку и разбирают кейс на Reddit.

Певица Sza сообщила, что в датасетах зафиксировано 238 ее треков, часть из которых даже официально не были изданы. Продюсер Кеннет Блум (Kenny Beats) 21 июня обратился напрямую к ИИ-генератору Suno — по его словам, он не может представить, как ежедневно приходить на работу, зная, что занимаешься кражей у бесчисленных музыкантов, едва сводящих концы с концами.

Контекст

Ситуацию осложняет принципиальная непрозрачность отрасли: данные для обучения моделей компании традиционно засекречивают, нередко ссылаясь на их проприетарный статус. Google, в частности, заявлял, что тренировал свои аудиомодели исключительно на материалах, права на которые у компании предусмотрены условиями сервиса.

Крупные лейблы уже подавали иски против Suno и Udio; а Warner и Universal в итоге предпочли заключить с ИИ-компаниями лицензионные и партнерские соглашения. Однако в условиях, когда полный объем задействованных датасетов по-прежнему неизвестен, масштаб использования музыки для нужд ИИ принципиально неверифицируем.

сегодня 20:03

Подпишись на наш VK

и узнавай о новостях первым!
NewOne сегодня 20:32
окккк. теперь видимо ждём VSTшку которая маскирует трек от этих роботов поисковиков? или это будет дополнительная платная функция н сайте Ai online mastering? ;))
Ответить  
Хаос ( Telephonk ) сегодня 20:42
"у бесчисленных музыкантов, едва сводящих концы с концами" а это с чем сравнивалось , по уровню ) от доширака до королевского омара ? это примерно в каком диапазоне )
Ответить  
Написать комментарий
Ваш комментарий