Datos Sintéticos: ¿La Nueva Fiebre del Oro de la IA o 'Lavado de Datos'?
La rápida aceleración del desarrollo de la inteligencia artificial se enfrenta ahora a un obstáculo importante: una inminente escasez de datos de entrenamiento de alta calidad. A medida que los sitios web levantan cada vez más barreras contra el raspado automatizado, y con el contenido público existente ya consumido vorazmente por los modelos de IA, crece la preocupación de que la fuente de información útil para el entrenamiento pueda agotarse pronto. ¿La solución propuesta por la industria? Datos sintéticos.
Este concepto se ha convertido rápidamente en un punto central, como destacó Sebastien Bubeck de OpenAI durante el reciente lanzamiento de GPT-5 transmitido en vivo. Bubeck subrayó su importancia crítica para el futuro de la IA, un sentimiento compartido por Sam Altman, CEO de OpenAI, quien expresó su entusiasmo por su potencial.
Sin embargo, la perspectiva de que los modelos de IA dependan en gran medida de datos generados artificialmente no ha pasado desapercibida para las industrias creativas, donde abunda el escepticismo. Reid Southern, artista conceptual e ilustrador de cine, sugiere que empresas de IA como OpenAI están recurriendo a los datos sintéticos precisamente porque han agotado el suministro de datos de alta calidad creados por humanos disponibles en internet público. Southern también plantea un motivo más controvertido: que los datos sintéticos ofrecen un medio para distanciar aún más a los desarrolladores de IA de cualquier material con derechos de autor en el que sus modelos puedan haberse entrenado inicialmente, mitigando así posibles enredos legales.
Por esta razón, Southern ha denunciado públicamente la práctica como “lavado de datos”. Argumenta que las empresas de IA podrían entrenar sus modelos con obras protegidas por derechos de autor, generar posteriormente variaciones de IA y luego eliminar el contenido original con derechos de autor de sus conjuntos de datos. Este proceso, sostiene, les permite “afirmar que su conjunto de entrenamiento es ‘ético’ porque, según su lógica, técnicamente no se entrenó con la imagen original”. Southern explica: “Por eso lo llamamos lavado de datos, porque, en cierto sentido, están intentando limpiar los datos y despojarlos de sus derechos de autor”.
En respuesta, un portavoz de OpenAI declaró que la compañía crea datos sintéticos “para avanzar en la IA, en línea con las leyes de derechos de autor pertinentes”. Añadieron que la generación de datos sintéticos de alta calidad les permite “construir productos más inteligentes y capaces como ChatGPT que ayudan a millones a trabajar de manera más eficiente, descubrir nuevas formas de aprender y crear, y permitir que los países innoven y compitan globalmente”.
El problema, sin embargo, es más intrincado, según Felix Simon, investigador de IA en la Universidad de Oxford. Simon señala que el uso de datos sintéticos “no remedia realmente el daño original por el que creadores y empresas de IA discuten”. Enfatiza que los datos sintéticos no surgen de la nada; presumiblemente son creados por modelos que ya han sido entrenados con datos de creadores y titulares de derechos de autor, a menudo sin su permiso explícito o compensación. Desde el punto de vista de la justicia social, los derechos y los deberes, Simon cree que estos titulares de derechos todavía se les debe algo, ya sea compensación, reconocimientos o ambos, incluso cuando se emplean datos sintéticos.
Ed Newton-Rex, fundador de Fairly Trained, una organización sin fines de lucro que certifica a las empresas de IA que respetan los derechos de propiedad intelectual, comparte las preocupaciones subyacentes de Southern. Si bien reconoce que los datos sintéticos pueden ser una “forma legítimamente útil de aumentar su conjunto de datos” y aumentar la cobertura de los datos de entrenamiento, especialmente a medida que el acceso a datos legítimos se vuelve limitado, también reconoce su lado problemático. “Al mismo tiempo, creo que, desafortunadamente, su efecto es, al menos en parte, el de un lavado de derechos de autor”, admite Newton-Rex, sugiriendo que ambas verdades pueden coexistir.
Newton-Rex advierte contra la aceptación de las garantías de las empresas de IA al pie de la letra, enfatizando que los datos sintéticos no son una panacea para las cuestiones críticas de derechos de autor que plagan la industria. Señala una creencia generalizada, pero errónea, de que los datos sintéticos ofrecen a los desarrolladores de IA un atajo conveniente para eludir las preocupaciones sobre derechos de autor. Además, argumenta que el propio encuadre de los datos sintéticos y la forma en que las empresas de IA discuten el entrenamiento de modelos sirven para distanciarlos de las personas cuyo trabajo podrían estar utilizando. Lo compara con el reciclaje de plástico, donde un nuevo producto hecho de material reciclado no borra su fuente original. “El hecho de que estos modelos de IA mezclen todo esto y generen, entre comillas, ‘nuevas salidas’, no hace nada para reducir su dependencia del trabajo original”, afirma.
Para Newton-Rex, la conclusión crucial es clara: incluso en un mundo cada vez más dependiente de los datos sintéticos, la dinámica fundamental sigue siendo la explotación del trabajo creativo de las personas, a menudo para crear productos que luego compiten directamente con ellos.