| ОбложкаНовостиСтатьиАнонсы | РелизыИнтервьюДевайсы |
| ВходРегистрация | |||||
| РекламаПрислать новость |
Издание The Atlantic представило публичный поисковый инструмент AI Watchdog, позволяющий музыкантам проверить, попали ли их треки в датасеты, применявшиеся для обучения ИИ-моделей.
Расследование
Инструмент создан в рамках масштабного расследования журналиста Алекса Райзнера о внутренних механизмах генеративных ИИ-систем — изначально оно было посвящено книгам, научным статьям и видео. Но теперь проект распространился и на музыку: вместе с новым текстом «Миллионы треков, перемолотые в ИИ-генерируемую музыку» издание открыло поиск по датасетам, которые использовали, в частности, компании Google и Stability AI.
Инструмент охватывает четыре датасета: крупнейший содержит 12 млн треков, второй — 9 млн, еще два — свыше 100 000 каждый; большинство записей распространялись под лицензиями Creative Commons, которые обязывают указывать авторство и запрещают коммерческое использование. Треки собирались преимущественно по ссылкам с YouTube и Spotify с помощью инструментов автоматизации, часть которых позволяла обходить авторизацию, рекламу и другие механизмы монетизации. Разумеется, за рамками четырех обнаруженных датасетов может существовать множество других.
Реакция артистов
Расследование и инструмент быстро вызвали волну обсуждений в музыкальном сообществе. Согласно данным поиска, к примеру, у Skrillex, Peggy Gou и Bicep в базах насчитываются десятки треков, андеграундные исполнители также находят свою музыку и разбирают кейс на Reddit.
Певица Sza сообщила, что в датасетах зафиксировано 238 ее треков, часть из которых даже официально не были изданы. Продюсер Кеннет Блум (Kenny Beats) 21 июня обратился напрямую к ИИ-генератору Suno — по его словам, он не может представить, как ежедневно приходить на работу, зная, что занимаешься кражей у бесчисленных музыкантов, едва сводящих концы с концами.
Контекст
Ситуацию осложняет принципиальная непрозрачность отрасли: данные для обучения моделей компании традиционно засекречивают, нередко ссылаясь на их проприетарный статус. Google, в частности, заявлял, что тренировал свои аудиомодели исключительно на материалах, права на которые у компании предусмотрены условиями сервиса.
Крупные лейблы уже подавали иски против Suno и Udio; а Warner и Universal в итоге предпочли заключить с ИИ-компаниями лицензионные и партнерские соглашения. Однако в условиях, когда полный объем задействованных датасетов по-прежнему неизвестен, масштаб использования музыки для нужд ИИ принципиально неверифицируем.