GPT-5 enttäuscht: KI-Fokus verschiebt sich zur Anwendung

Technologyreview

Sam Altman, CEO von OpenAI, setzte vor der Veröffentlichung von GPT-5 am vergangenen Donnerstag außergewöhnlich hohe Erwartungen, indem er dessen Fähigkeiten so beschrieb, dass er sich „relativ zur KI nutzlos“ fühle und Parallelen zu den Entwicklern der Atombombe zog. Dieses neue Angebot wurde nicht nur als inkrementelles Upgrade positioniert, sondern als entscheidender Schritt in Richtung künstlicher allgemeiner Intelligenz (AGI) – der lang versprochenen KI-Grenze, von der Evangelisten glauben, dass sie die Menschheit grundlegend zum Besseren verändern wird. Doch vor diesem Hintergrund immenser Erwartungen hat GPT-5 größtenteils enttäuscht.

Frühe Tester und Kritiker haben schnell eklatante Fehler in den Antworten von GPT-5 hervorgehoben, was Altmans Behauptung vom Starttag, das Modell agiere wie „ein legitimer Experte auf PhD-Niveau in jedem Bereich, den Sie benötigen“, direkt widerspricht. Es sind auch Probleme mit OpenAIs Versprechen aufgetaucht, dass GPT-5 automatisch das optimale KI-Modell für eine gegebene Abfrage erkennen würde – sei es ein komplexes Denkmodell oder ein schnelleres, einfacheres. Altman selbst scheint zugegeben zu haben, dass diese Funktion fehlerhaft ist und die Benutzerkontrolle beeinträchtigt. Positiv ist zu vermerken, dass das neue Modell Berichten zufolge die Tendenz der vorherigen Iteration, Benutzer übermäßig zu schmeicheln, anspricht, wobei GPT-5 weniger dazu neigt, sie mit überschwänglichen Komplimenten zu überhäufen. Insgesamt, wie einige Beobachter bemerkt haben, fühlt sich die Veröffentlichung eher wie ein poliertes Produkt-Update an – das elegantere, ästhetisch ansprechendere Konversationsschnittstellen bietet – als ein bahnbrechender Sprung in den KI-Fähigkeiten.

Dieser scheinbar bescheidene Fortschritt in der reinen Intelligenz spiegelt eine breitere Verschiebung innerhalb der KI-Branche wider. Eine Zeit lang konzentrierten sich KI-Unternehmen hauptsächlich darauf, die intelligentesten Modelle überhaupt zu bauen, ähnlich einem universellen „Gehirn“, im Vertrauen darauf, dass allgemeine Intelligenz natürlich in verschiedene Anwendungen, von der Poesie bis zur organischen Chemie, übersetzt werden würde. Die Strategie drehte sich um die Skalierung von Modellen, die Verfeinerung von Trainingsmethoden und das Streben nach grundlegenden technischen Durchbrüchen. Dieser Ansatz scheint sich jedoch zu entwickeln. Da erwartete Durchbrüche möglicherweise nicht so schnell eintreten wie erhofft, beinhaltet das aktuelle Vorgehen, bestehende Modelle aggressiv für spezifische Anwendungen zu vermarkten, oft mit ehrgeizigen Behauptungen. Zum Beispiel haben Unternehmen zunehmend behauptet, ihre KI-Modelle könnten menschliche Programmierer ersetzen, obwohl frühe Beweise das Gegenteil nahelegen. Diese Wende impliziert, dass große Sprachmodelle in absehbarer Zukunft nur marginale Verbesserungen ihrer Kernfähigkeiten erfahren werden, was KI-Unternehmen dazu zwingt, den Nutzen ihrer aktuellen Angebote zu maximieren.

Nirgendwo ist diese strategische Verschiebung offensichtlicher als in OpenAIs expliziter Ermutigung an Benutzer, GPT-5 für Gesundheitsratschläge zu nutzen – ein besonders heikles und sensibles Gebiet. Anfangs vermied OpenAI medizinische Anfragen weitgehend, wobei ChatGPT oft umfangreiche Haftungsausschlüsse bezüglich seiner mangelnden medizinischen Expertise bereitstellte und manchmal die Beantwortung gesundheitsbezogener Fragen gänzlich verweigerte. Berichte deuten jedoch darauf hin, dass diese Haftungsausschlüsse mit nachfolgenden Modellveröffentlichungen zu verschwinden begannen. OpenAIs Modelle können jetzt Röntgenbilder und Mammographien interpretieren und sogar Folgefragen stellen, die darauf abzielen, Benutzer zu einer Diagnose zu führen.

Dieser bewusste Vorstoß ins Gesundheitswesen festigte sich im Mai mit der Ankündigung von HealthBench, einem System, das entwickelt wurde, um die Kompetenz von KI in Gesundheitsthemen anhand der Meinungen von Medizinern zu bewerten. Darauf folgte eine im Juli von OpenAI mitverfasste Studie, die berichtete, dass eine Gruppe kenianischer Ärzte weniger Diagnosefehler machte, wenn sie von einem KI-Modell unterstützt wurden. Die Einführung von GPT-5 festigte diesen Kurs weiter, wobei Altman einen OpenAI-Mitarbeiter, Felipe Millon, und seine Frau, Carolina Millon, vorstellte, bei der kürzlich mehrere Krebsarten diagnostiziert worden waren. Carolina teilte ihre Erfahrung, wie sie ChatGPT nutzte, um komplexe medizinische Fachsprache aus Biopsieergebnissen zu übersetzen und bei Entscheidungen zu helfen, wie z.B. ob eine Strahlentherapie verfolgt werden sollte. Das Trio präsentierte dies als ein ermächtigendes Beispiel für die Überbrückung der Wissenslücke zwischen Patienten und Ärzten.

Doch dieser Kurswechsel stürzt OpenAI in gefährliches Terrain. Das Unternehmen scheint aus Beweisen, dass KI als nützliches klinisches Werkzeug für ausgebildete Ärzte dienen kann, abzuleiten, dass Personen ohne medizinischen Hintergrund persönliche Gesundheitsratschläge direkt von KI-Modellen einholen sollten. Eine erhebliche Sorge ist, dass viele Benutzer solche Ratschläge befolgen könnten, ohne jemals einen Arzt zu konsultieren, insbesondere jetzt, da der Chatbot sie selten dazu auffordert. Ein drastisches Beispiel für dieses Risiko zeigte sich nur zwei Tage vor der Einführung von GPT-5, als die Annals of Internal Medicine eine Fallstudie veröffentlichten, die einen Mann detaillierte, der eine schwere Bromidvergiftung entwickelte – ein Zustand, der in den USA seit den 1970er Jahren weitgehend ausgerottet ist –, nachdem er nach einem Gespräch mit ChatGPT aufgehört hatte, Salz zu konsumieren und gefährliche Mengen Bromid zu sich genommen hatte. Er wäre beinahe gestorben und verbrachte Wochen im Krankenhaus.

Im Kern wirft diese Situation kritische Fragen der Rechenschaftspflicht auf. Wenn KI-Unternehmen von der Verheißung abstrakter allgemeiner Intelligenz dazu übergehen, menschenähnliche Hilfsbereitschaft in spezialisierten Bereichen wie dem Gesundheitswesen anzubieten, wird die Frage der Haftung für Fehler von größter Bedeutung und ist weitgehend ungelöst. Wie Damien Williams, Assistenzprofessor für Datenwissenschaft und Philosophie an der University of North Carolina Charlotte, betont: „Wenn Ärzte Ihnen aufgrund von Fehlern oder Vorurteilen schädlichen medizinischen Rat geben, können Sie sie wegen Kunstfehler verklagen und Entschädigung erhalten.“ Er kontrastiert dies scharf mit KI: „Wenn ChatGPT Ihnen schädlichen medizinischen Rat gibt, weil es auf voreingenommenen Daten trainiert wurde oder weil ‚Halluzinationen‘ den Operationen des Systems inhärent sind, was ist Ihr Regress?“ Die aktuelle Landschaft bietet wenig Anhaltspunkte dafür, dass Technologieunternehmen für den Schaden, den ihre KI-Modelle verursachen könnten, haftbar gemacht werden.