KI-Versagen im Geschichtstest: Historiker vor Robotern sicher

Gizmodo

Jüngste Diskussionen über künstliche Intelligenz legen oft nahe, dass KI menschliche Arbeitsplätze bald ergänzen, wenn nicht sogar vollständig ersetzen wird. Eine aktuelle Microsoft-Studie beispielsweise stufte Historiker provokant als zweithäufigste Berufsgruppe ein, die am wahrscheinlichsten durch KI verbessert wird. Diese Prognose löste verständlicherweise Bedenken in der historischen Gemeinschaft aus. Doch nach umfangreichen persönlichen Tests führender generativer KI-Tools mit spezifischen historischen Fakten wird deutlich, dass Historiker keine unmittelbare Überflüssigkeit fürchten müssen. Gegenwärtig ist KI weit davon entfernt, ihre komplexe Arbeit effektiv zu leisten.

Meine Faszination für die Filme, die US-Präsidenten während ihrer Amtszeit gesehen haben, wurde zum idealen Testfeld für diese KI-Systeme. Seit 2012 habe ich dieses Nischengebiet akribisch erforscht, von Teddy Roosevelts Vogel-Dokumentarfilmvorführung im Jahr 1908 bis hin zu jüngeren Regierungen. Meine Reise begann mit der Entdeckung von Ronald Reagans Film-Liste des Weißen Hauses, was zu einer Anfrage nach dem Freedom of Information Act (FOIA) bezüglich Barack Obamas Sehgewohnheiten führte – eine Anfrage, die offenbarte, dass präsidiale Aufzeichnungen bis fünf Jahre nach dem Ausscheiden eines Präsidenten aus dem Amt von der FOIA ausgenommen sind. Unbeirrt habe ich mich seitdem in eine Vielzahl von Quellen vertieft und eine detaillierte, wenn auch ungewöhnliche, historische Datenbank zusammengestellt. Die Prüfung der KI mit Informationen, die ich genau kenne, ermöglichte es mir, deren Genauigkeit zu beurteilen – ein entscheidender Schritt, der oft von Nutzern übersehen wird, die diese Tools typischerweise zu Themen befragen, die sie nicht kennen. Die Ergebnisse waren für jeden, der sich auf KI-Chatbots für präzise Informationen verlässt, ziemlich aufschlussreich.

Meine ersten Versuche umfassten die Flaggschiff-Modelle von OpenAI, einschließlich dessen, was als GPT-5 präsentiert wurde, wobei ich nach bestimmten Filmen fragte, die von Präsidenten wie Woodrow Wilson, Dwight Eisenhower, Richard Nixon und den beiden George Bushes an bestimmten Daten angesehen wurden. Die Antworten von OpenAI waren durchweg wenig hilfreich, oft wurde angegeben, dass keine Aufzeichnungen gefunden werden konnten, oder in einigen Fällen wurden Informationen erfunden. Obwohl sie glücklicherweise nicht direkt fabrizieren, konnten die Modelle selbst relativ einfache Fragen nicht beantworten. Dieser Mangel an Transparenz darüber, welches Modell im Hintergrund arbeitete, gepaart mit einer allgemeinen Unfähigkeit, genaue historische Details zu liefern, zeigte eine erhebliche Schwäche auf, trotz der früheren Versprechen von CEO Sam Altman von “Doktoranden-Experten”-Fähigkeiten.

Die Mängel beschränkten sich nicht auf OpenAI. Andere große KI-Chatbots, darunter Google Gemini, Microsoft Copilot, Perplexity und xAIs Grok, zeigten ebenfalls erhebliche Ungenauigkeiten. Als beispielsweise gefragt wurde, welchen Film Präsident Eisenhower am 11. August 1954 sah, schlug Copilots “Schnelle Antwort” fälschlicherweise The Unconquered vor, einen Dokumentarfilm, in dem Eisenhower kurz auftritt. Der Wechsel zu Copilots “Tiefe Recherche”-Modus ergab einen weitläufigen, 3.500 Wörter umfassenden Bericht, der spekulierte, dass Eisenhower “wahrscheinlich” Suddenly gesehen habe, einen Film, der erst Monate nach dem angefragten Datum veröffentlicht wurde. Copilots “Analyse” zitierte “indirekte und sekundäre Beweise”, eine Formulierung, die in diesem Kontext reine Spekulation darstellte, da die korrekte Antwort – Fluss ohne Wiederkehr, bestätigt durch das Logbuch eines Filmvorführers des Weißen Hauses – vollständig übersehen wurde. Gemini gab keine Antwort, während Perplexity ebenfalls fälschlicherweise Suddenly riet, scheinbar durch einen Fun Fact über die Filminspiration in die Irre geführt.

Ähnliche Fehlermuster zeigten sich bei anderen Anfragen zu Präsidenten. Als nach Richard Nixons Sehgewohnheiten am 12. Februar 1971 gefragt wurde, behauptete Copilots “Schnelle Antwort”, er habe Patton in Key Biscayne gesehen, und zitierte einen Link des Nationalarchivs, der bei Überprüfung keine solchen Informationen enthielt. Obwohl Copilots “Tiefe Recherche” schließlich The Great Chase korrekt identifizierte, führte es gleichzeitig neue, falsche Behauptungen ein, dass Nixon Patton an anderen Daten gesehen habe. Perplexity schlug fälschlicherweise Zwei glorreiche Halunken vor und verwechselte das Datum mit einer Sichtung ein Jahr später.

Die Herausforderungen verstärkten sich bei obskureren Fakten. Zum Beispiel sah Woodrow Wilson am 6. März 1917 The Crisis, einen Stummfilm, den ich persönlich beschafft und online hochgeladen habe, da er nicht öffentlich zugänglich war. Die meisten KI-Modelle blieben entweder stumm oder schlugen fälschlicherweise Die Geburt einer Nation vor, Wilsons berühmteste, aber viel frühere, Vorführung im Weißen Haus. ChatGPT behauptete sogar fälschlicherweise, Die Geburt einer Nation sei der erste Film gewesen, der jemals im Weißen Haus gezeigt wurde, und ignorierte frühere Vorführungen von Taft und Teddy Roosevelt.

Selbst wenn eine KI die richtige Antwort liefern konnte, gaben ihre Begründungen oder Quellen oft Anlass zur Sorge. xAIs Grok identifizierte beispielsweise schließlich Eisenhowers Fluss ohne Wiederkehr korrekt, nachdem es aufgefordert wurde, “härter nachzudenken”, doch seine Quelle war mein eigener obskurer Twitter-Account, dem eine direkte Zitierung fehlte. Dies unterstreicht Groks Abhängigkeit von leicht verfügbaren, oft unbestätigten Internetdaten. Ähnlich zitierte Grok, als es George W. Bushs Sichtung des Kurzdokumentarfilms Twin Towers am 10. September 2003 korrekt identifizierte, FOIA-Dokumente, die ich zuvor angefordert hatte, wodurch es effektiv meine eigene frühere Forschung synthetisierte, anstatt eine neue Untersuchung durchzuführen.

Diese Tests, obwohl im akademischen Sinne nicht wissenschaftlich, wurden entwickelt, um die praktische Nützlichkeit von KI für präzise historische Forschung zu bewerten. Sie zeigen, dass, während KI-Unternehmen mit verbesserter Argumentation und reduzierten “Halluzinationen” prahlen, die reale Leistung für spezifische, nuancierte Informationen weiterhin zutiefst fehlerhaft ist. Generative KI-Tools werden als Allzweck-Wissensmaschinen vermarktet, eine “große Aufgabe”, die sie konsequent nicht erfüllen, wenn sie mit Informationen konfrontiert werden, die nicht weitgehend digitalisiert oder leicht aus gängigen Internetquellen synthetisiert werden können.

Die Rolle eines Historikers geht weit über das bloße Zusammenstellen veröffentlichter Fakten hinaus. Wahre historische Forschung beinhaltet das Aufspüren schwer zu findender Dokumente in Archiven, die Durchführung von Interviews mit primären Zeugen oder Experten, die kritische Bewertung widersprüchlicher Quellen und letztendlich das Beitragen neuer Interpretationen und eines neuen Verständnisses der Vergangenheit. Meine Tests, die sich ausschließlich auf bestimmte Daten und Filmtitel konzentrierten, stellen nur einen winzigen Bruchteil dessen dar, was ein Historiker leistet.

Obwohl KI-Tools zweifellos für unzählige Aufgaben nützlich sind, ist es entscheidend, den weit verbreiteten Glauben an ihre Allmacht zu mäßigen. Diese “gottähnlichen” Werkzeuge regelmäßig mit Fakten herauszufordern, die man genau kennt, dient als wichtige Erinnerung an ihre Grenzen. Übermäßige Abhängigkeit von KI ohne kritische menschliche Aufsicht riskiert nicht nur die Förderung von Unwissenheit, sondern untergräbt auch das Streben nach genauem Wissen.