Datos Sintéticos: ¿La Nueva Fiebre del Oro de la IA o 'Lavado de Datos'?

Fastcompany

El rápido avance de la inteligencia artificial se acerca a un cuello de botella crítico: una oferta decreciente de datos de entrenamiento de alta calidad. A medida que los sitios web implementan cada vez más barreras al raspado de datos y el contenido público existente es consumido vorazmente por los modelos de IA, crece la preocupación de que la fuente de información utilizable pronto pueda agotarse. Sin embargo, la solución propuesta por la industria ha encendido un feroz debate: los datos sintéticos.

Este concepto, donde los modelos de IA generan sus propios datos de entrenamiento, está ganando una tracción significativa dentro de la comunidad tecnológica. Sebastien Bubeck, miembro del personal técnico de OpenAI, destacó su importancia durante el reciente lanzamiento de GPT-5, un sentimiento que hizo eco el CEO de OpenAI, Sam Altman. La promesa es clara: los datos sintéticos podrían impulsar la próxima generación de capacidades de IA, permitiendo productos más inteligentes y capaces como ChatGPT, que, según sus defensores, mejorarán la productividad, fomentarán el aprendizaje e impulsarán la innovación global. OpenAI sostiene que su generación de datos sintéticos se adhiere a las leyes de derechos de autor pertinentes.

Sin embargo, esta creciente dependencia de los datos generados por máquinas no ha pasado desapercibida para las industrias creativas, lo que ha provocado una considerable aprensión. Reid Southern, un artista conceptual e ilustrador de cine, sugiere que las empresas de IA están recurriendo a los datos sintéticos precisamente porque han agotado el suministro de contenido de alta calidad creado por humanos disponible en Internet público. Más concretamente, Southern cree que hay un motivo oculto: distanciarse de cualquier material con derechos de autor con el que sus modelos podrían haberse entrenado inicialmente, evitando así posibles escollos legales.

Southern ha calificado públicamente esta práctica como “lavado de datos”. Argumenta que las empresas de IA podrían primero entrenar sus modelos con obras con derechos de autor, luego generar contenido nuevo y variado por IA basado en ese aprendizaje, y posteriormente eliminar el material original con derechos de autor de sus conjuntos de datos. Según esta lógica, podrían afirmar que sus conjuntos de entrenamiento son “éticos” porque “técnicamente” no se entrenaron con la imagen original con derechos de autor. Southern afirma que este proceso intenta “limpiar los datos y despojarlos de sus derechos de autor”.

Felix Simon, investigador de IA en la Universidad de Oxford, ofrece una perspectiva más matizada, reconociendo que, si bien los datos sintéticos pueden parecer una solución, no “remedian fundamentalmente el daño original” causado a los creadores. Señala que los datos sintéticos no se conjuran de la nada; presumiblemente son creados por modelos que a su vez fueron entrenados con datos existentes de creadores y titulares de derechos de autor, a menudo sin su permiso explícito o compensación. Desde una perspectiva de justicia social, derechos y deberes, Simon sostiene que a estos titulares de derechos todavía se les debe algo, ya sea compensación, reconocimiento o ambos, incluso cuando se emplean datos sintéticos.

Ed Newton-Rex, fundador de Fairly Trained, una organización sin fines de lucro que certifica a las empresas de IA que respetan los derechos de propiedad intelectual, comparte las preocupaciones de Southern. Concede que los datos sintéticos pueden ser una herramienta genuinamente útil para aumentar los conjuntos de datos y la cobertura de los datos de entrenamiento, especialmente a medida que el desarrollo de la IA se acerca a los límites de la información legítimamente accesible. Sin embargo, también identifica un “lado oscuro”, coincidiendo en que su efecto es, al menos en parte, una forma de lavado de derechos de autor.

Newton-Rex advierte contra aceptar las garantías de las empresas de IA al pie de la letra, enfatizando que los datos sintéticos “no son una panacea” para las preguntas críticas sobre derechos de autor que enfrenta la industria. Advierte contra la creencia generalizada, aunque errónea, entre algunos desarrolladores de IA de que los datos sintéticos pueden ayudarles a eludir las preocupaciones sobre derechos de autor. Además, argumenta que la propia formulación de los datos sintéticos, y la forma en que las empresas de IA discuten el entrenamiento de modelos, sirve para oscurecer los orígenes de sus modelos y distanciarlos de los creadores individuales cuyo trabajo pueden estar utilizando. Lo compara con el reciclaje de plástico, donde los orígenes de un contenedor reciclado se ocultan en su nueva forma; de manera similar, los modelos de IA “mezclan todo esto y generan ‘nueva producción’” sin reducir su dependencia del trabajo original. Para Newton-Rex, la conclusión crucial sigue siendo que, incluso en un mundo que depende de los datos sintéticos, “el trabajo de las personas está siendo explotado para competir con ellos”.