The Atlantic expone las bases de datos que entrenan a la IA con música

¿Alguna vez te preguntaste de dónde sacan los datos las compañías de inteligencia artificial? Un periodista de The Atlantic acaba de darle una respuesta muy clara: de tu música. Y ahora, cualquiera puede verificarlo.
¿Qué pasó?
Alex Reisner, reportero de The Atlantic, descubrió cuatro datasets masivos de música que están siendo utilizados para entrenar modelos de IA y, en un acto de transparencia radical, los puso a disposición del público en una base de datos completamente searchable. Los números son impresionantes: dos de estos conjuntos contienen 12 millones y 9 millones de canciones respectivamente, mientras que los otros dos, aunque más pequeños, todavía representan una cantidad significativa de datos de entrenamiento.
Esta investigación es importante porque expone la realidad de cómo funcionan los modelos de generación de música con IA. Las compañías no siempre informan claramente qué material utilizan para entrenar sus sistemas, y los artistas raramente consienten explícitamente que sus obras se usen de esta manera. La base de datos de The Atlantic permite a cualquier persona —músicos, productores, abogados, investigadores— verificar si su trabajo está incluido en estos entrenamientos.
La herramienta es sencilla: escribís el nombre de un artista, una canción o una banda y ves instantáneamente si aparece en alguno de estos datasets. Es como descubrir que tus creaciones fueron copiadas masivamente sin tu permiso.
¿Por qué importa en Argentina y América Latina?
Para los creadores latinoamericanos, esto es particularmente relevante. Nuestra región tiene una riqueza musical increíble—desde reggaeton hasta cumbia, salsa y música electrónica—pero también tiene menos poder de negociación en las mesas de las grandes corporaciones de tech. Si tus canciones están siendo usadas para entrenar modelos de IA generativa, ¿quién se beneficia? Seguramente no vos como artista.
Además, muchos músicos latinoamericanos ya luchan contra problemas de piratería y distribución desigual de royalties en plataformas como Spotify. Agregar «robo de datos para entrenar IA» a esta lista es un golpe adicional. Argentina, Colombia, Brasil y México tienen escenas musicales vibrantes que merecen protección legal clara en torno al uso de sus obras para IA.
¿Qué se recomienda?
Para músicos y creadores: Consultá la base de datos de The Atlantic. Si encontrás tu música, documentá el hallazgo. Considerá contactar a asociaciones de derechos de autor en tu país y explorar opciones legales. En Argentina, la SADAIC (Sociedad Argentina de Autores y Compositores) debería estar en tu radar.
Para legisladores: Es hora de establecer marcos regulatorios claros sobre el uso de obras creativas para entrenar IA. La Unión Europea está avanzando con regulaciones; América Latina no debería quedarse atrás.
Para usuarios de IA: Sé consciente de que los modelos que usás fueron entrenados con obras de artistas que probablemente nunca dieron su consentimiento. Eso tiene implicaciones éticas reales.
Fuente: The Verge AI