El Auge de los Datos Sintéticos en IA: ¿Innovación o Lavado de Derechos?

Fastcompany

El rápido ritmo del desarrollo de la inteligencia artificial se enfrenta a un desafío inminente: una posible escasez de datos de entrenamiento de alta calidad. A medida que los sitios web levantan cada vez más barreras a la recopilación de datos, y el contenido en línea existente se extrae vorazmente para alimentar el entrenamiento de modelos de IA, crece la preocupación de que la fuente de información utilizable pronto se agote. La solución propuesta por la industria es cada vez más clara: los datos sintéticos.

“Recientemente en la industria, se ha hablado mucho de los datos sintéticos”, afirmó Sebastien Bubeck, miembro del personal técnico de OpenAI, durante el reciente evento de lanzamiento de GPT-5 de la compañía. Bubeck subrayó su papel fundamental para el futuro de los modelos de IA, un sentimiento compartido por el CEO de OpenAI, Sam Altman, quien expresó su entusiasmo por “mucho más por venir”.

Sin embargo, la perspectiva de una fuerte dependencia de los datos generados por IA no ha pasado desapercibida para las industrias creativas. Reid Southern, artista conceptual e ilustrador de cine, sugiere que empresas de IA como OpenAI están recurriendo a los datos sintéticos principalmente porque han agotado el suministro de contenido de alta calidad creado por humanos disponible en internet público. Southern también postula un motivo más controvertido: “Los distancia aún más de cualquier material con derechos de autor con el que hayan entrenado y que podría meterlos en problemas”.

Por esta razón, Southern ha calificado públicamente la práctica de “lavado de datos”. Argumenta que las empresas de IA podrían entrenar inicialmente sus modelos con obras protegidas por derechos de autor, generar posteriormente variaciones de ese contenido creadas por IA, y luego eliminar el material original con derechos de autor de sus conjuntos de datos de entrenamiento. Esta estrategia, afirma, les permitiría asegurar que su conjunto de entrenamiento es “ético” porque, según su lógica, no se entrenó “técnicamente” con la imagen original protegida por derechos de autor. “Por eso lo llamamos lavado de datos”, explica Southern, “porque, en cierto sentido, están intentando limpiar los datos y despojarlos de sus derechos de autor”.

En respuesta, un portavoz de OpenAI afirmó el compromiso de la compañía con el desarrollo responsable: “Creamos datos sintéticos para avanzar en la IA, en línea con las leyes de derechos de autor relevantes”. El portavoz añadió que la generación de datos sintéticos de alta calidad les permite construir productos más inteligentes y capaces como ChatGPT, que empoderan a millones para trabajar de manera más eficiente, descubrir nuevas formas de aprender y crear, y fomentar la innovación y la competencia global.

Felix Simon, investigador de IA en la Universidad de Oxford, ve el problema con una lente más matizada. Señala que, si bien los datos sintéticos podrían parecer ofrecer un borrón y cuenta nueva, “realmente no remedian el daño original por el que creadores y empresas de IA discuten”. Enfatiza que los datos sintéticos no surgen de la nada; presumiblemente son creados por modelos que a su vez han sido entrenados con datos de creadores y titulares de derechos de autor, a menudo sin permiso o compensación. Desde una perspectiva de justicia social, derechos y deberes, Simon afirma que “a estos titulares de derechos todavía se les debe algo incluso con el uso de datos sintéticos, ya sea compensación, reconocimientos o ambos”.

Ed Newton-Rex, fundador de Fairly Trained, una organización sin fines de lucro que certifica a las empresas de IA que respetan los derechos de propiedad intelectual de los creadores, comparte las preocupaciones fundamentales de Southern. Reconoce la utilidad legítima de los datos sintéticos como un medio para “aumentar su conjunto de datos” y “aumentar la cobertura de sus datos de entrenamiento”. En un momento en que la industria está “chocando con los límites de los datos de entrenamiento legítimamente accesibles”, los datos sintéticos se perciben como una forma de “extender la vida útil de esos datos”.

Sin embargo, Newton-Rex también advierte contra sus implicaciones más oscuras. “Al mismo tiempo, creo que, desafortunadamente, su efecto es, al menos en parte, el de un lavado de derechos de autor”, afirma, concluyendo que “ambas cosas son ciertas”. Advierte contra la aceptación ciega de las garantías de las empresas de IA, enfatizando que los datos sintéticos “no son una panacea para las preguntas increíblemente importantes sobre derechos de autor”. La noción de que los datos sintéticos permiten a los desarrolladores de IA eludir las preocupaciones sobre derechos de autor es, en su opinión, fundamentalmente errónea.

Newton-Rex argumenta además que la propia formulación de los datos sintéticos, y cómo las empresas de IA discuten el entrenamiento de modelos, sirve para distanciarlos de las personas cuyo trabajo pueden estar utilizando. “El oyente promedio, si escucha que este modelo fue entrenado con datos sintéticos, seguramente pensará: ‘Oh, claro, está bien. Bueno, esto probablemente no sea el último álbum de Ed Sheeran, ¿verdad?’”, postula. Esta narrativa, sostiene, “nos aleja aún más de una comprensión fácil de cómo se hacen realmente estos modelos, lo cual, en última instancia, es explotando el trabajo de toda una vida de las personas”. Traza una analogía con el reciclaje de plástico, donde un contenedor reciclado podría haberse originado como un juguete o un parachoques de coche. El acto de los modelos de IA de mezclar diversas entradas para generar “nuevas salidas” no hace nada, sostiene, para disminuir su dependencia del trabajo humano original.

Para Newton-Rex, la conclusión crítica sigue siendo: “Realmente el elemento absolutamente crítico aquí, y que debe recordarse, es que incluso en un mundo de datos sintéticos, lo que está sucediendo es que el trabajo de la gente está siendo explotado para competir con ellos.”