Apache Flink 2.1.0: KI-Integration für Echtzeit-Entscheidungen

2025-08-01T22:12:54.000ZInfoworld

Das Apache Flink Project Management Committee (PMC) hat die Veröffentlichung von Apache Flink 2.1.0 bekannt gegeben, ein bedeutendes Upgrade für seine Echtzeit-Datenverarbeitungs-Engine. Diese neueste Version bietet robuste Unterstützung für die Echtzeit-Definition, -Verwaltung und -Aufrufung von KI-Modellen und legt damit den Grundstein für durchgängige Echtzeit-KI-Workflows.

Ein zentrales Merkmal von Flink 2.1.0 sind seine erweiterten KI-Fähigkeiten. Benutzer können KI-Modelle nun programmatisch über die Model DDL (Data Definition Language) Table API definieren und verwalten, die sowohl für Java als auch für Python verfügbar ist. Dies bietet einen flexiblen, code-gesteuerten Ansatz zur Integration und Verwaltung von Modellen innerhalb von Flink-Anwendungen. Ergänzend dazu wurde die tabellenwertige Funktion ML_PREDICT erweitert, die eine nahtlose Echtzeit-Modellinferenz direkt innerhalb von SQL-Abfragen ermöglicht. Dadurch können Machine-Learning-Modelle auf Datenströme angewendet werden, sobald diese eintreffen. Die Implementierung unterstützt Flinks eingebaute Modell-Provider, wie OpenAI, und bietet Schnittstellen für Benutzer, um benutzerdefinierte Modell-Provider zu definieren, was eine strategische Verschiebung für Flink hin zu einer vereinheitlichten Echtzeit-KI-Plattform markiert.

Über die KI-Integration hinaus führt Apache Flink 2.1 Process Table Functions (PTFs) ein, die vom PMC als der mächtigste Funktionstyp für Flink SQL und die Table API beschrieben werden. PTFs dienen als Obermenge aller anderen benutzerdefinierten Funktionen und können null, eine oder mehrere Eingabetabellen auf null, eine oder mehrere Ausgaberows abbilden. Diese Funktionalität ermöglicht es Benutzern, ausgeklügelte benutzerdefinierte Operatoren zu implementieren, die es mit der Funktionsvielfalt eingebauter Operationen aufnehmen können, wobei PTFs Zugriff auf Flinks verwalteten Zustand, Ereigniszeit-Verarbeitung, Tabellenänderungsprotokolle und Timer-Dienste haben.

Eine weitere bemerkenswerte Ergänzung in Flink 2.1 ist der VARIANT-Datentyp, der zur besseren Handhabung von semi-strukturierten Daten wie JSON entwickelt wurde. Dieser neue Typ ermöglicht das Speichern beliebiger semi-strukturierter Daten, einschließlich Arrays, Maps (mit String-Schlüsseln) und Skalartypen, während Feldtyp-Informationen in einer JSON-ähnlichen Struktur erhalten bleiben. Im Gegensatz zu den Typen ROW und STRUCTURED bietet VARIANT eine überlegene Flexibilität für die Verwaltung tief verschachtelter und sich entwickelnder Schemata. Benutzer können JSON-formatierte String-Daten mithilfe der Funktionen PARSE_JSON oder TRY_PARSE_JSON in VARIANT konvertieren.

Weitere Verbesserungen in Apache Flink 2.1 umfassen:

  • Die Einführung eines DeltaJoin-Operators für Stream-Processing-Jobs, begleitet von Optimierungen für einfachere Streaming-Join-Pipelines.
  • Zusätzliche Unterstützung für das binäre Smile-Format für kompilierte Pläne, das eine speichereffiziente Alternative zu JSON für die Serialisierung und Deserialisierung bietet.
  • Ein neuer steckbarer Batching-Mechanismus für Async Sink zur Laufzeit, der es Benutzern ermöglicht, benutzerdefinierte Batching-Schreibstrategien zu definieren, die auf spezifische Anforderungen zugeschnitten sind.
  • Ein neuer Konnektor für Keyed State, der es Benutzern ermöglicht, Keyed State direkt aus einem Checkpoint oder Savepoint mithilfe von Flink SQL abzufragen. Dies vereinfacht das Überprüfen, Debuggen und Validieren des Zustands von Flink-Jobs ohne benutzerdefinierte Tools.

Diese Updates stärken die Position von Apache Flink als führende Echtzeit-Datenverarbeitungs-Engine, jetzt mit erheblich erweiterten Fähigkeiten für KI-gesteuerte Anwendungen und verbesserter Flexibilität für diverse Datentypen und operationelle Anforderungen.

Apache Flink 2.1.0: KI-Integration für Echtzeit-Entscheidungen - OmegaNext KI-Nachrichten