OpenAI se resiste a demanda del NYT por 120 millones de logs de ChatGPT

Decoder

OpenAI se encuentra inmersa en una importante disputa legal con The New York Times, marcada por una polémica batalla por el acceso a millones de conversaciones de usuarios de ChatGPT. En el centro del último desacuerdo está la demanda del periódico de buscar en una cantidad sin precedentes de 120 millones de registros de chat como parte de su demanda por derechos de autor en curso contra el gigante de la inteligencia artificial. OpenAI, sin embargo, se está oponiendo, ofreciendo en su lugar un subconjunto significativamente menor de 20 millones de registros.

El Times busca estos datos extensos para desenterrar posibles infracciones de derechos de autor que involucren sus artículos y para documentar meticulosamente cómo tales incidentes pudieron haber evolucionado durante un período de 23 meses. OpenAI, por otro lado, advierte que acceder a la amplia solicitud del periódico plantea riesgos técnicos y de privacidad sustanciales. La compañía explica que estos registros de chat son en gran parte no estructurados, a menudo superando las 5,000 palabras cada uno, y frecuentemente contienen información personal altamente sensible, incluidas direcciones y contraseñas.

Antes de que se pudieran compartir datos, estos registros requerirían una revisión manual meticulosa y una redacción para eliminar detalles sensibles. OpenAI estima que preparar incluso los 20 millones de registros que ha ofrecido tomaría aproximadamente doce semanas, mientras que procesar los 120 millones completos consumiría aproximadamente 36 semanas. Este proceso intensivo en mano de obra, señala la compañía, demandaría un personal y recursos técnicos significativos, ya que los datos deben extraerse de un sistema fuera de línea. OpenAI también destaca que retener chats eliminados por períodos prolongados, como implica la demanda del Times, podría crear nuevas vulnerabilidades a las filtraciones de datos.

El Times ha rechazado firmemente el límite propuesto por OpenAI, afirmando que una muestra más pequeña sería insuficiente para demostrar violaciones sistemáticas de derechos de autor y tendencias a largo plazo, insistiendo en un acceso completo para construir su caso. En respuesta, OpenAI cita al científico informático Taylor Berg-Kirkpatrick, quien apoya la validez estadística de una muestra de 20 millones de registros. La compañía de IA argumenta que expandir la búsqueda más allá de esto sería desproporcionado y prolongaría innecesariamente los procedimientos legales.

Este desacuerdo actual se desarrolla en el contexto de una importante orden judicial emitida en junio de 2025. Esta orden exigía que OpenAI conservara todas las conversaciones de ChatGPT, incluidas aquellas que los usuarios habían eliminado. La directiva siguió a las acusaciones del Times y otros editores de que OpenAI estaba destruyendo pruebas a través de procesos de eliminación automatizados.

OpenAI criticó vehementemente esta orden, describiéndola como una grave invasión de la privacidad de cientos de millones de usuarios. La compañía argumentó en la corte que muchos chats contienen información “profundamente personal”, que va desde datos financieros hasta asuntos privados como la planificación de bodas. Además, los clientes comerciales que utilizan la API de OpenAI para procesar datos corporativos sensibles también se ven afectados. OpenAI sostiene que la orden la obliga a violar sus propias políticas de privacidad y erosiona fundamentalmente la confianza del usuario.

Si bien el juez encontró razones para creer que la evidencia podría perderse a través de la eliminación y ordenó la preservación integral de los datos como precaución, OpenAI disputa la alegación de destrucción deliberada de pruebas. La compañía sostiene que no hay pruebas de que el contenido infractor fuera eliminado intencionalmente, ya sea de forma automática o manual, y desestima la noción de que los usuarios eliminaran masivamente chats para ocultar riesgos legales como especulativa.

La noticia de la decisión del tribunal rápidamente repercutió en las plataformas de redes sociales, generando una preocupación generalizada entre los usuarios. Expertos en LinkedIn y X (anteriormente Twitter) emitieron advertencias sobre nuevos riesgos de seguridad y aconsejaron no compartir datos sensibles con ChatGPT. Algunas empresas incluso interpretaron la orden como un posible incumplimiento de contrato por parte de OpenAI, temiendo que los datos confidenciales ahora se almacenarían por más tiempo y potencialmente se expondrían a terceros.