KI-Produktauslieferung: Praktische Lehren aus einem gescheiterten Startup

Infoq

In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz, wo der Hype oft die praktische Anwendung übertrifft, bietet Phil Calçado eine ernüchternde und aufschlussreiche Post-Mortem-Analyse seines gescheiterten KI-Startups Outropy. Auf einer kürzlich stattgefundenen InfoQ-Konferenz teilte Calçado, ein erfahrener Softwareentwickler, der für die Pionierarbeit im Bereich Microservices bei SoundCloud bekannt ist, offene Lehren über die Realitäten der Auslieferung generativer KI-Produkte jenseits des Hypes. Seine Kernbotschaft: Die Schlüssel zu einer erfolgreichen KI-Entwicklung liegen nicht im Streben nach futuristischen Visionen, sondern in der rigorosen Anwendung etablierter Software-Engineering-Prinzipien.

Calçado begann damit, seine eigene Voreingenommenheit anzuerkennen: drei Jahrzehnte Erfahrung im Softwarebau, insbesondere mit verteilten Systemen und Microservices, mit einer starken Neigung zu iterativer, „get-stuff-done“-Agile-Entwicklung. Diese Perspektive, so gibt er zu, prägt seine Ansichten über KI, die seiner Meinung nach von diesen grundlegenden Praktiken nicht ausgenommen werden sollte.

Outropy, Calçados Unternehmung, zielte darauf ab, Aspekte von Manager- und Ingenieur-Workflows mithilfe generativer KI zu automatisieren, beginnend als Slack-Chatbot und sich zu einer Chrome-Erweiterung entwickelnd. Obwohl es ein früher Akteur im generativen KI-Bereich war, Tausende von Benutzern anzog und sogar Produkte von Tech-Giganten wie Salesforce in Bezug auf die Qualität übertraf (nach seinen eigenen Benchmarks), scheiterte das Startup letztendlich. Die überraschende Offenbarung aus dem Benutzerfeedback war, dass viele weniger am Tool selbst interessiert waren als daran, wie Outropy, gebaut von „zwei Jungs und einem Hund“, es geschafft hatte, ein System mit solch effektivem „agentischem Verhalten“ – autonomen Entscheidungsfähigkeiten – zu schaffen, während größere Unternehmen Schwierigkeiten hatten. Dieses Paradoxon veranlasste Calçado, tiefgreifend zu analysieren, warum die meisten KI-Produkte, insbesondere im Produktivitätssektor, versagen.

Calçado identifiziert drei vorherrschende Ansätze zum Bau von KI heute, jeder mit seinen eigenen Fallstricken. Der erste ist die „Twitter-gesteuerte Entwicklung“, gekennzeichnet durch eine Obsession mit kommenden, noch nicht veröffentlichten Modellen und einer Missachtung aktueller technologischer Einschränkungen, was oft zu auffälligen Demos führt, die Finanzierung sichern, aber keinen echten Mehrwert liefern. Der zweite behandelt die KI-Entwicklung als reines „Datenwissenschaftsprojekt“, typischerweise in größeren Unternehmen. Diese Methode, oft langsam und forschungsorientiert, kann Jahre dauern, um marginale Verbesserungen zu erzielen, ein Luxus, der nicht verfügbar ist, wenn KI auf dem kritischen Pfad eines Produkts liegt. Der dritte und von Calçado bevorzugte Ansatz ist es, die KI-Entwicklung als traditionelles „Ingenieurprojekt“ zu behandeln und von Anfang an die iterative Entwicklung zu umarmen.

Anschließend ging er auf die fundamentalen Bausteine generativer KI-Systeme ein: Workflows und Agenten. Workflows, die er lieber als „Inferenz-Pipelines“ bezeichnet, stellen vordefinierte Abfolgen von Schritten dar, um ein KI-Ziel zu erreichen, wie das Zusammenfassen einer E-Mail. Agenten hingegen sind halbautonome Softwarekomponenten, bei denen große Sprachmodelle (LLMs) dynamisch ihre eigenen Prozesse steuern, Tools verwenden und zusammenarbeiten, um Aufgaben zur Erreichung eines bestimmten Ziels auszuführen.

Für Workflows warnt Calçado vor der häufigen Falle, sich ausschließlich auf Retrieval-Augmented Generation (RAG)-Anbieter zu verlassen, die versprechen, Kontext direkt an LLMs zu liefern. Er stellte fest, dass LLMs oft nicht intelligent genug für diesen simplen Ansatz sind, was zusätzliche Schritte zur Strukturierung und semantischen Bedeutung erfordert. Outropys Erfolg bei täglichen Briefings kam zum Beispiel daher, dass komplexe Aufgaben in kleinere, strukturierte Transformationen zerlegt wurden, ähnlich wie bei Datenpipelines. Dies ermöglicht die Anwendung bestehender Datenpipeline-Tools und -Methoden, wodurch die KI-Entwicklung auf vertrautem Ingenieurgebiet verankert wird.

Wenn es um Agenten geht, macht Calçado eine provokante Behauptung: „Agenten sind Objekten in der objektorientierten Programmierung sehr ähnlich.“ Während er anerkennt, dass traditionelle Microservices aufgrund ihrer Zustandsbehaftung, nicht-deterministischen Verhaltens und datenintensiven Natur schlecht zu Agenten passen, argumentiert er, dass das objektorientierte Paradigma – mit Konzepten wie Speicher (Zustand), Zielorientierung (Kapselung), Dynamik (Polymorphismus) und Zusammenarbeit (Nachrichtenübertragung) – ein nützliches mentales Modell für Ingenieure bietet.

Architektonisch rät Calçado von der Punkt-zu-Punkt-Agentenkollaboration ab, die zu einer engen Kopplung und einer Neuerfindung komplexer Webdienst-Stacks von vor zwei Jahrzehnten führen kann. Stattdessen plädiert er für „semantische Ereignisse“ auf einem Message Bus, wie Redis oder Kafka, wo Agenten Interesse an spezifischen, gut definierten Ereignissen registrieren, was lose Kopplung und Skalierbarkeit fördert. Er warnt auch vor der Einführung neuer Standards wie Anthropics Model Context Protocol (MCP) für interne Produkte, da sie an frühe, überentwickelte Protokolle wie SOAP erinnern. Für interne Systeme schlägt er vor, bei empirisch bewährten Methoden wie RESTful-Architekturen oder gRPC zu bleiben.

Bezüglich der „agentischen Erinnerung“, der Herausforderung, dass ein Agent Wissen über einen Benutzer behält, verwirft Calçado den gängigen Ansatz, alle Informationen in einem langen Textdokument innerhalb einer Vektordatenbank zu speichern. Er argumentiert, dass eine fehlerhafte Erinnerung schlimmer ist als gar keine Erinnerung. Seine empfohlene Lösung ist „Event Sourcing“, bei dem ein Strom semantischer Ereignisse über einen Benutzer zu einer strukturierten Darstellung verdichtet wird, oft in einer Graphdatenbank wie Neo4j gespeichert, was ein robusteres und sich entwickelndes Verständnis ermöglicht.

Schließlich fordert Calçado den vorherrschenden „monolithischen Pipeline“-Ansatz in Datenwissenschaftsprojekten heraus, bei dem ein gesamter Prozess von der Datenerfassung bis zur Ausgabe als eine einzige, stark gekoppelte Einheit aufgebaut wird. Er befürwortet die Aufteilung dieser Workflows in kleinere, unabhängige Komponenten mit klar definierten Schnittstellen, was Flexibilität und Wiederverwendbarkeit ermöglicht – ein Konzept, das aus dem Domain-Driven Design und Microservices bekannt ist.

Er schließt mit der Beobachtung, dass trotz des Reizes von „verteilten Objekten“ die grundlegenden Prinzipien des „Twelve-Factor App“-Manifests, die die moderne Cloud-Infrastruktur untermauern, oft von agentischen KI-Systemen aufgrund ihrer inhärenten Zustandsbehaftung und nicht-deterministischen Natur verletzt werden. Dies erfordert eine Verlagerung hin zu „dauerhaften Workflows“ (wie sie von Temporal angeboten werden), die Resilienz, Wiederholungen und Checkpointing handhaben, wodurch Ingenieure daran gehindert werden, diese kritischen Infrastrukturkomponenten ständig neu zu erfinden.

Calçados ultimative Erkenntnis ist eine mächtige: Die Komplexität, die in aktuellen KI-Produktarchitekturen wie der von Outropy zu sehen ist, ist oft „überkompliziert“ für die Anzahl der bedienten Benutzer, was einen erheblichen Bedarf an besseren Plattformen hervorhebt. Dennoch behauptet er, dass der Bau erfolgreicher KI-Produkte im Grunde auf die Anwendung bewährter Software-Engineering-Weisheit hinausläuft. Ingenieure sollten ihr vorhandenes Wissen nutzen und dem Drang widerstehen, zu glauben, dass KI, trotz ihres Hypes, sich grundlegend von den Herausforderungen unterscheidet, die sie zuvor gemeistert haben.