Menschen vs. KI: Bessere Content-Polizei, aber 40x teurer

Theregister

Wenn es um die Überwachung von Online-Inhalten zur Markensicherheit geht, zeigt eine aktuelle Studie einen deutlichen Kompromiss: Menschliche Moderatoren sind wesentlich genauer als künstliche Intelligenz, aber sie verursachen erstaunliche Kosten, fast das 40-fache der effizientesten maschinellen Lernlösungen. Dieses Dilemma ist besonders akut für Vermarkter, die verhindern wollen, dass ihre Anzeigen neben problematischem Material erscheinen – eine Praxis, die für den Schutz des Markenrufs entscheidend ist.

Die Ergebnisse stammen aus einer Forschung, die von Experten in Verbindung mit Zefr, einem KI-Markenschutzunternehmen, durchgeführt und in ihrem Preprint-Papier „KI vs. Menschliche Moderatoren: Eine vergleichende Bewertung multimodaler LLMs in der Inhaltsmoderation für Markensicherheit“ detailliert beschrieben wurde. Diese Studie, die für die Präsentation auf dem Workshop „Computer Vision in Advertising and Marketing (CVAM)“ der International Conference on Computer Vision 2025 angenommen wurde, analysierte akribisch die Kosten und Effektivität multimodaler großer Sprachmodelle (MLLMs) bei der Gewährleistung der Markensicherheit.

Markensicherheit, wie von den Forschern definiert, ist der kritische Prozess, unangemessene Inhalte daran zu hindern, mit einer Marke in Verbindung gebracht zu werden, wodurch deren öffentliches Image geschützt wird. Dies unterscheidet sich von der verbraucherorientierten Inhaltsmoderation auf Social-Media-Plattformen, die sich oft mit breiteren Richtlinienverstößen und nutzergenerierten Inhalten befasst. Für Werbetreibende bedeutet Markensicherheit, die Anzeigenplatzierungen an spezifische Präferenzen anzupassen und Kategorien von gewalttätigem oder erwachsenenorientiertem Material bis hin zu kontroversen politischen Diskursen zu vermeiden. Typischerweise kombinieren diese Bemühungen menschliche Aufsicht mit maschineller Lernanalyse von Bildern, Audio und Text. Die Zefr-Studie zielte darauf ab, zu bewerten, wie gut modernste MLLMs diese komplexe Aufgabe bewältigen können und zu welchem finanziellen Aufwand.

Die Forscher bewerteten sechs prominente KI-Modelle – GPT-4o, GPT-4o-mini, Gemini-1.5-Flash, Gemini-2.0-Flash, Gemini-2.0-Flash-Lite und Llama-3.2-11B-Vision – und verglichen deren Leistung mit der menschlicher Prüfer. Die Bewertung verwendete einen vielfältigen Datensatz von 1.500 Videos, die gleichermaßen in Kategorien wie Drogen, Alkohol und Tabak; Tod, Verletzung und Militärkonflikt; und Kinderinhalte unterteilt waren. Die Leistung wurde anhand von Standardmetriken des maschinellen Lernens gemessen: Präzision (die Genauigkeit positiver Identifikationen), Recall (die Fähigkeit, alle relevanten Instanzen zu erfassen) und F1-Score (ein ausgewogenes Maß für beide).

Die Ergebnisse zeigten unzweifelhaft die menschliche Überlegenheit. Menschliche Moderatoren erreichten einen beeindruckenden F1-Score von 0.98, was eine nahezu perfekte Genauigkeit mit minimalen Fehlalarmen oder Fehlern bedeutet. Im Gegensatz dazu erreichten selbst die leistungsstärksten MLLMs, hauptsächlich die Gemini-Modelle, einen maximalen F1-Score von 0.91. Interessanterweise stellte die Studie fest, dass die kompakteren Versionen dieser KI-Modelle im Vergleich zu ihren größeren Gegenstücken keinen signifikanten Leistungsabfall aufwiesen.

Obwohl MLLMs sich als effektiv bei der Automatisierung der Inhaltsmoderation erwiesen, wurden ihre Grenzen deutlich, insbesondere in nuancierten oder kontextreichen Situationen. Die Modelle versagten häufig aufgrund falscher Assoziationen, mangelndem Kontextverständnis und Sprachbarrieren. Zum Beispiel wurde ein Video, das Koffeinabhängigkeit auf Japanisch diskutierte, von allen KI-Modellen fälschlicherweise als drogenbezogener Verstoß gekennzeichnet, eine Fehlklassifizierung, die auf fehlerhafte Assoziationen mit dem Begriff „Sucht“ und eine allgemeine Schwierigkeit mit nicht-englischen Inhalten zurückgeführt wurde.

Die finanziellen Auswirkungen dieser Leistungsunterschiede sind tiefgreifend. Während die menschliche Moderation eine überlegene Genauigkeit lieferte, kostete sie für die bewertete Aufgabe 974 US-Dollar. Im krassen Gegensatz dazu erledigte das kostengünstigste KI-Modell, GPT-4o-mini, dieselbe Aufgabe für lediglich 25 US-Dollar, dicht gefolgt von Gemini-1.5-Flash und Gemini-2.0-Flash-Lite mit jeweils 28 US-Dollar. Selbst die teureren KI-Modelle wie GPT-4o (419 US-Dollar) und Llama-3.2-11B-Vision (459 US-Dollar) waren deutlich günstiger als ihre menschlichen Gegenstücke.

Die Autoren der Studie kamen zu dem Schluss, dass kompakte MLLMs zwar eine erheblich günstigere Alternative ohne wesentlichen Genauigkeitsverlust bieten, menschliche Prüfer jedoch einen klaren Vorteil behalten, insbesondere bei komplexen oder subtilen Klassifizierungen. Jon Morra, Zefrs Chief AI Officer, fasste die Ergebnisse zusammen und erklärte, dass multimodale große Sprachmodelle die Markensicherheits-Videomoderation über verschiedene Medientypen hinweg mit überraschender Genauigkeit und geringeren Kosten bewältigen können, sie jedoch in nuancierten Fällen immer noch Defizite aufweisen. Er betonte, dass ein hybrider Ansatz, der menschliches Fachwissen mit KI-Effizienz kombiniert, den effektivsten und wirtschaftlichsten Weg für die Inhaltsmoderation in der sich entwickelnden Markensicherheitslandschaft darstellt.