Databricks: Agenten-KI – Verhalten zählt, nicht nur Daten
In den letzten fünf Jahren haben schnelle Fortschritte in den Datenverarbeitungs- und Denkfähigkeiten von Künstliche-Intelligenz-Modellen eine unermüdliche Verfolgung unter Unternehmens- und Industrieentwicklern angetrieben: immer größere Modelle zu bauen und nach immer ehrgeizigeren Benchmarks zu streben. Nun, da Agenten-KI als der erwartete Nachfolger von generativer KI aufkommt, steigt die Nachfrage nach intelligenteren, nuancierteren KI-Agenten. Doch paradoxerweise bleibt das vorherrschende Maß für die Intelligenz einer KI oft zu simpel, lediglich an die Modellgröße oder die schiere Menge ihrer Trainingsdaten gebunden.
Das Datenanalyse- und KI-Unternehmen Databricks behauptet, dass dieses aktuelle KI-Wettrüsten einen entscheidenden Punkt grundlegend verfehlt. In einer Produktionsumgebung ist das wahre Maß für den Wert einer KI nicht, was sie im abstrakten Sinne „weiß“, sondern wie effektiv sie sich verhält, wenn Stakeholder von ihr abhängig sind. Jonathan Frankle, Databricks’ Chefwissenschaftler für KI, betont, dass echtes Vertrauen und ein greifbarer Return on Investment von KI-Modellen direkt aus ihrem Verhalten in realen Produktionsumgebungen stammen, nicht aus der bloßen Informationsmenge, die sie enthalten könnten.
Anders als traditionelle Software, die nach deterministischen Regeln arbeitet, um vorhersehbare Ergebnisse zu liefern, erzeugen KI-Modelle probabilistische Ergebnisse. Diese inhärente Eigenschaft ändert grundlegend, wie sie bewertet werden müssen. „Das Einzige, was man an einem KI-System messen kann, ist, wie es sich verhält. Man kann nicht hineinschauen. Es gibt kein Äquivalent zu Quellcode“, erklärt Frankle. Er argumentiert, dass öffentliche Benchmarks zwar eine nützliche Momentaufnahme der allgemeinen Fähigkeiten bieten, Unternehmen sich jedoch häufig zu sehr auf diese breiten Metriken verlassen und sie fälschlicherweise als Indikatoren für die Anwendbarkeit in der realen Welt interpretieren.
Frankle behauptet, dass das, was wirklich zählt, eine strenge, kontinuierliche Bewertung anhand geschäftsspezifischer Daten ist. Eine solch präzise Bewertung ist entscheidend für die Messung der Ausgabequalität, die Verfeinerung des Modellverhaltens und die effektive Steuerung von Reinforcement-Learning-Strategien, die es der KI ermöglichen, sich im Laufe der Zeit zu verbessern. Er kritisiert einen gängigen, informellen Ansatz zur KI-Bereitstellung: „Heute setzen die Leute Agenten oft ein, indem sie einen Prompt schreiben, ein paar Eingaben ausprobieren, ihre Intuition überprüfen und dann deployen. Das würden wir in der Software niemals tun – und wir sollten es auch in der KI nicht tun.“ Diese lässige Methodik, so deutet er an, ist ein Rezept für unzuverlässige Leistung und ein Hindernis, das volle Potenzial der KI auszuschöpfen.
Letztendlich stellt die von Databricks befürwortete Fokusverschiebung eine Reifung der KI-Industrie dar. Sie geht über den Reiz roher Rechenleistung und Datenvolumen hinaus zu einem pragmatischeren, leistungsorientierten Ansatz, bei dem die wahre Intelligenz einer KI durch ihre zuverlässigen, nützlichen Aktionen in der komplexen Landschaft realer Operationen bewiesen wird.