GPT-5 Lidera Benchmarks de IA Legal, Cerca del Progreso de la 'Última Milla'

Artificiallawyer

El modelo GPT-5 de OpenAI ha logrado un hito significativo en el ámbito de la inteligencia artificial legal, obteniendo un impresionante 89.22% en el sistema de evaluación “BigLaw Bench” de Harvey. Este rendimiento posiciona a GPT-5 como el modelo de OpenAI con mejor desempeño evaluado por Harvey, un pionero líder en IA generativa en el sector de la tecnología legal.

Lanzado el año pasado, el BigLaw Bench de Harvey fue diseñado para medir rigurosamente la calidad de las respuestas de la IA generativa, evaluando específicamente cuán cerca se alinean con las expectativas de un profesional legal. El sistema emplea rúbricas diseñadas a medida para evaluar dos dimensiones críticas: “Calidad de la Respuesta”, que examina la completitud, precisión y adecuación de la respuesta del modelo para la finalización efectiva de tareas; y “Fiabilidad de la Fuente”, que evalúa la capacidad de la IA para proporcionar fuentes verificables y correctamente citadas para sus afirmaciones, mejorando así la confianza y facilitando la validación. Las puntuaciones se calculan meticulosamente acumulando puntos positivos por cumplir los requisitos de la tarea y deduciendo puntos por errores o pasos en falso, como las alucinaciones de la IA, con el resultado final expresado como un porcentaje.

La puntuación del 89.22% de GPT-5 representa un avance notable, mostrando una mejora de aproximadamente el 5% sobre el siguiente modelo de OpenAI más cercano, o3, que obtuvo un 84.13%. Si bien Harvey evalúa modelos de varias compañías, estos resultados comparativos específicos destacan el progreso de OpenAI. Este nivel de rendimiento está comenzando a acercarse a lo que los expertos de la industria denominan el territorio de la “última milla” en el desarrollo de la IA. Esto se refiere a la etapa final y más desafiante donde las salidas de la IA son tan refinadas y confiables que los profesionales legales pueden aprobarlas con confianza para su uso directo con una intervención humana mínima. Lograr resultados iniciales, algo precisos, es relativamente sencillo para muchos modelos de lenguaje grandes, pero superar el umbral del 90% y entrar en esta “última milla” hacia una precisión del 99% es un desafío fundamentalmente diferente y mucho más arduo.

A pesar de las dificultades inherentes, el progreso se está logrando innegablemente a un ritmo increíble. Si bien los nuevos modelos de IA generativa ciertamente experimentarán mejoras incrementales, los mayores saltos en el rendimiento pueden provenir de otras mejoras estratégicas, como la mejora de las capas de verificación subyacentes. El camino hacia una precisión casi perfecta, quizás del 99.9%, probablemente aún esté a años de distancia, reflejando las complejidades encontradas en campos como la conducción autónoma, donde lograr un alto grado de éxito en entornos no estructurados es increíblemente difícil, pero en última instancia alcanzable con una inversión sostenida. La rápida evolución del sector legal en los últimos tres años, pasando de un escepticismo generalizado sobre la IA a que la mayoría de los grandes bufetes de abogados y sus clientes se involucren profundamente con la tecnología, subraya el impacto transformador de estas mejoras en el rendimiento de los modelos. Sin las ganancias tangibles entregadas por los grandes modelos de lenguaje, una adopción tan entusiasta de las herramientas de IA legal no se habría materializado.

Harvey planea aprovechar las capacidades mejoradas de GPT-5 integrándolas en sus sistemas para habilitar casos de uso más potentes, particularmente en la redacción de documentos y la investigación compleja. GPT-5 se destaca como el primer modelo de orquestación capaz de combinar múltiples tareas, permitiendo que un solo agente de IA colabore con un usuario en la investigación y produzca un producto de trabajo terminado. Por ejemplo, en un escenario complejo como la identificación de inconsistencias entre documentos de orientación interna y las regulaciones actuales en los Estados Unidos y la Unión Europea, GPT-5 puede orquestar varios agentes. Estos agentes podrían revisar documentos internos para encontrar tendencias relevantes, buscar cambios recientes en las regulaciones globales, realizar un análisis de brechas exhaustivo y luego redactar un memorando que describa recomendaciones para actualizar la orientación interna para garantizar la alineación regulatoria, todo mientras solicita al usuario contexto adicional según sea necesario.

Junto con las recientes asociaciones de datos con los gigantes de la información legal LexisNexis e iManage, los sistemas de Harvey ahora pueden acceder a una vista completa de datos legales tanto públicos como propietarios antes de actuar. Este acceso holístico a los datos, combinado con las capacidades de uso de herramientas y redacción sustancialmente mejoradas de GPT-5, facilita la construcción de un sistema de IA profundamente integrado que puede razonar sobre los datos internos de una organización y aprovechar el contenido confiable de terceros en tiempo real. Este avance acerca a Harvey a su misión principal: crear un “compañero de trabajo inteligente” capaz de navegar por la naturaleza dinámica, iterativa y colaborativa de los asuntos legales complejos.