GPT-5 führt Rechts-KI-Benchmarks an, nähert sich 'letzter Meile'

Artificiallawyer

OpenAIs GPT-5-Modell hat einen bedeutenden Meilenstein im Bereich der juristischen künstlichen Intelligenz erreicht, indem es beeindruckende 89,22 % im „BigLaw Bench“-Bewertungssystem von Harvey erzielte. Diese Leistung macht GPT-5 zum besten OpenAI-Modell, das von Harvey, einem führenden Pionier für generative KI im Legal-Tech-Sektor, bewertet wurde.

Harveys BigLaw Bench, letztes Jahr eingeführt, wurde entwickelt, um die Qualität generativer KI-Antworten rigoros zu messen und insbesondere zu bewerten, wie eng sie den Erwartungen eines Rechtsexperten entsprechen. Das System verwendet speziell entwickelte Rubriken zur Bewertung von zwei kritischen Dimensionen: „Antwortqualität“, die die Vollständigkeit, Genauigkeit und Angemessenheit der Modellantwort für eine effektive Aufgabenerfüllung prüft; und „Quellenverlässlichkeit“, die die Fähigkeit der KI bewertet, überprüfbare und korrekt zitierte Quellen für ihre Behauptungen bereitzustellen, wodurch das Vertrauen gestärkt und die Validierung erleichtert wird. Die Punktzahlen werden sorgfältig berechnet, indem positive Punkte für die Erfüllung der Aufgabenanforderungen gesammelt und Punkte für Fehler oder Fehltritte, wie z.B. KI-Halluzinationen, abgezogen werden, wobei das Endergebnis als Prozentsatz ausgedrückt wird.

GPT-5s Punktzahl von 89,22 % stellt einen bemerkenswerten Fortschritt dar und zeigt eine Verbesserung von etwa 5 % gegenüber dem nächstbesten OpenAI-Modell, o3, das 84,13 % erreichte. Während Harvey Modelle verschiedener Unternehmen bewertet, heben diese spezifischen Vergleichsergebnisse den Fortschritt von OpenAI hervor. Dieses Leistungsniveau beginnt sich dem anzunähern, was Branchenexperten als „letzte Meile“ in der KI-Entwicklung bezeichnen. Dies bezieht sich auf die letzte, anspruchsvollste Phase, in der die KI-Ausgaben so verfeinert und zuverlässig sind, dass Juristen sie mit minimalem menschlichen Eingriff direkt verwenden können. Erste, einigermaßen genaue Ergebnisse sind für viele große Sprachmodelle relativ einfach zu erzielen, aber die Überschreitung der 90 %-Schwelle und das Vordringen in diese „letzte Meile“ in Richtung 99 % Genauigkeit ist eine grundlegend andere und viel mühsamere Herausforderung.

Trotz der inhärenten Schwierigkeiten werden unbestreitbar Fortschritte in unglaublicher Geschwindigkeit erzielt. Während neue generative KI-Modelle sicherlich inkrementelle Verbesserungen erfahren werden, könnten größere Leistungssprünge von anderen strategischen Verbesserungen herrühren, wie z.B. der Verbesserung der zugrunde liegenden Verifizierungsschichten. Der Weg zu einer nahezu perfekten Genauigkeit, vielleicht 99,9 %, liegt wahrscheinlich noch Jahre entfernt, was die Komplexität widerspiegelt, die in Bereichen wie dem autonomen Fahren auftritt, wo das Erreichen eines hohen Erfolgsgrades in unstrukturierten Umgebungen unglaublich schwierig, aber letztendlich mit nachhaltigen Investitionen erreichbar ist. Die schnelle Entwicklung des Rechtssektors in den letzten drei Jahren, der sich von weit verbreiteter Skepsis gegenüber KI zu einer Mehrheit großer Anwaltskanzleien und ihrer Mandanten entwickelt hat, die sich tief mit der Technologie auseinandersetzen, unterstreicht die transformative Wirkung dieser sich verbessernden Modellleistungen. Ohne die greifbaren Gewinne, die durch große Sprachmodelle erzielt wurden, wäre eine solch enthusiastische Einführung von Rechts-KI-Tools nicht zustande gekommen.

Harvey plant, die verbesserten Fähigkeiten von GPT-5 zu nutzen, indem sie diese in seine Systeme integriert, um leistungsfähigere Anwendungsfälle zu ermöglichen, insbesondere bei der Dokumentenerstellung und komplexen Recherche. GPT-5 zeichnet sich als erstes Orchestrierungsmodell aus, das mehrere Aufgaben kombinieren kann, wodurch ein einziger KI-Agent sowohl mit einem Benutzer bei der Recherche zusammenarbeiten als auch ein fertiges Arbeitsergebnis produzieren kann. In einem komplexen Szenario, wie der Identifizierung von Inkonsistenzen zwischen internen Richtliniendokumenten und aktuellen Vorschriften in den Vereinigten Staaten und der Europäischen Union, kann GPT-5 beispielsweise verschiedene Agenten orchestrieren. Diese Agenten könnten interne Dokumente auf relevante Trends überprüfen, aktuelle Änderungen in globalen Vorschriften finden, eine umfassende Lückenanalyse durchführen und dann ein Memo mit Empfehlungen zur Aktualisierung interner Richtlinien verfassen, um die Einhaltung der Vorschriften sicherzustellen – all dies, während der Benutzer bei Bedarf um zusätzlichen Kontext gebeten wird.

Zusammen mit den jüngsten Datenpartnerschaften mit den Rechtsinformationsgiganten LexisNexis und iManage können Harveys Systeme nun vor dem Handeln auf eine umfassende Ansicht sowohl öffentlicher als auch proprietärer Rechtsdaten zugreifen. Dieser ganzheitliche Datenzugriff, kombiniert mit GPT-5s erheblich verbesserten Werkzeugnutzungs- und Entwurfsfähigkeiten, erleichtert den Aufbau eines tief integrierten KI-Systems, das über die internen Daten einer Organisation nachdenken und vertrauenswürdige Inhalte von Drittanbietern in Echtzeit nutzen kann. Dieser Fortschritt bringt Harvey näher an seine Kernmission: die Schaffung eines „intelligenten Kollegen“, der die dynamische, iterative und kollaborative Natur komplexer Rechtsangelegenheiten bewältigen kann.