“El gran saqueo digital”: millones de vídeos de YouTube habrían sido usados sin permiso para entrenar inteligencias artificiales

Las nuevas inteligencias artificiales de vídeo, capaces de recrear escenas realistas en segundos, enfrentan una polémica creciente: el origen de las imágenes con las que fueron entrenadas. Según una investigación de The Atlantic, millones de vídeos habrían sido extraídos de plataformas como YouTube sin consentimiento explícito, alimentando modelos que hoy pueden generar entornos, personas y situaciones casi indistinguibles de la realidad.

El avance de la IA generativa ha sido vertiginoso. En apenas dos años, los modelos pasaron de experimentos limitados a sistemas capaces de crear clips complejos. Sin embargo, este desarrollo dejó atrás una cuestión clave: la transparencia. Empresas como OpenAI aseguran que entrenan sus sistemas con material “disponible públicamente”, pero no detallan cuáles son las fuentes exactas, generando dudas sobre la legalidad y la ética de esos procesos.

The Atlantic reveló que al menos 15 millones de vídeos fueron utilizados para entrenar modelos de IA, una gran parte de ellos procedentes de YouTube. Entre el material identificado se encuentran contenidos periodísticos y producciones profesionales de medios internacionales como The New York Times, BBC, The Guardian, The Washington Post o Al Jazeera. Ninguno de esos canales habría recibido notificación ni autorización previa.

Runway, una de las empresas pioneras en la generación de vídeo mediante IA, aparece entre las señaladas. Según los documentos analizados, sus modelos habrían sido entrenados con clips clasificados por tipos de escena —entrevistas, noticieros, planos recurso o demostraciones—, lo que permitiría a las máquinas reproducir comportamientos humanos y estilos audiovisuales reconocibles. Laboratorios de Meta y ByteDance también estarían implicados en el uso masivo de material tomado de internet para sus propios desarrollos.

La posición de YouTube es contundente: su normativa prohíbe descargar vídeos para entrenar modelos de inteligencia artificial. Su director ejecutivo, Neal Mohan, advirtió que los creadores confían en que sus contenidos sean respetados y usados solo dentro de las condiciones del servicio. El hallazgo de millones de vídeos en bases de datos de IA ha intensificado la presión legal y ética sobre las plataformas y compañías tecnológicas.

Los medios de comunicación han reaccionado de manera desigual. Algunos, como Vox Media o el grupo español Prisa, han optado por firmar acuerdos de licencia con desarrolladores de IA para garantizar compensaciones y reglas claras. Otros, como The New York Times, han llevado el conflicto a los tribunales, demandando a OpenAI y Microsoft por el uso no autorizado de su material y advirtiendo que defenderán también sus contenidos audiovisuales.

El debate legal sigue abierto y marca un punto de inflexión. Expertos en propiedad intelectual señalan que publicar contenido en línea no equivale a ceder su uso para entrenar algoritmos, mientras las empresas tecnológicas sostienen que trabajar con datos “públicos” es esencial para la innovación. En ese terreno gris se juega una disputa crucial: quién controla el conocimiento digital del mundo y quién se beneficia de él. La batalla por los datos promete redefinir las reglas del futuro tecnológico.

Fuente: Xataka

Scroll al inicio