Diffusionsmodelle entschlüsselt: Die Tech hinter DALL-E & Midjourney
Die jüngste Explosion der generativen künstlichen Intelligenz, angeführt von großen Sprachmodellen wie ChatGPT, hat eine neue Innovationswelle in den Mainstream gebracht. Über die Textgenerierung hinaus haben diese leistungsstarken KI-Systeme die Art und Weise, wie wir visuelle Inhalte erstellen, transformiert und Tools wie DALL-E und Midjourney hervorgebracht. Diese beliebten Plattformen, die für ihre Fähigkeit gefeiert werden, komplexe Bilder aus einfachen Textaufforderungen zu zaubern, schaffen nichts aus dem Nichts; stattdessen basieren sie auf einer hochentwickelten zugrunde liegenden Technologie, die als Diffusionsmodelle bekannt ist.
Im Kern sind Diffusionsmodelle eine Klasse generativer KI-Algorithmen, die darauf ausgelegt sind, neue Daten zu produzieren, die mit ihren Trainingsbeispielen übereinstimmen. Für die Bildgenerierung bedeutet dies, neuartige Visualisierungen aus verschiedenen Eingaben zu konstruieren. Im Gegensatz zu früheren generativen Methoden arbeiten Diffusionsmodelle über einen einzigartigen zweistufigen Prozess: Sie führen zuerst systematisch Rauschen in Daten ein und lernen dann akribisch, es zu entfernen, wodurch ein beschädigtes Bild effektiv zu einem Endprodukt verfeinert wird. Man kann sie sich als fortschrittliche „Entrauschungs“-Engines vorstellen.
Die konzeptionelle Grundlage für Diffusionsmodelle entstand aus bahnbrechender Forschung im Jahr 2015 von Sohl-Dickstein et al., die die Idee einführten, Daten durch einen „kontrollierten Vorwärts-Diffusionsprozess“ in reines Rauschen umzuwandeln und dann ein Modell zu trainieren, diesen Prozess umzukehren und die Originaldaten zu rekonstruieren. Darauf aufbauend präsentierten Ho et al. im Jahr 2020 das moderne Diffusions-Framework, das das Feld erheblich voranbrachte und in der Lage war, hochwertige Bilder zu erzeugen, die sogar zuvor dominierende Modelle wie Generative Adversarial Networks (GANs) übertrafen.
Die erste kritische Phase, der Vorwärts- (oder Diffusions-) Prozess, beinhaltet die schrittweise Korruption eines Bildes. Beginnend mit einem klaren Bild aus einem Datensatz wird über zahlreiche Schritte – oft Hunderte oder Tausende – inkrementell eine winzige Menge Rauschen hinzugefügt. Mit jeder Iteration wird das Bild zunehmend stärker degradiert, bis es von zufälligem Rauschen nicht mehr zu unterscheiden ist. Dieser Prozess wird mathematisch als Markow-Kette modelliert, was bedeutet, dass jede verrauschte Version ausschließlich vom unmittelbar vorhergehenden Zustand abhängt. Die Begründung für diese schrittweise Degradation, anstatt einer einzigen, abrupten Transformation, ist entscheidend: Sie ermöglicht es dem Modell, die subtilen Übergänge von verrauschten zu weniger verrauschten Daten zu lernen, wodurch es befähigt wird, Bilder Schritt für Schritt aus reiner Zufälligkeit zu rekonstruieren. Die Rate, mit der Rauschen eingeführt wird, wird durch einen „Rauschplan“ gesteuert, der variieren kann – ein linearer Plan fügt Rauschen stetig hinzu, während ein Cosinus-Plan es gradueller einführt, wodurch Bildmerkmale über längere Zeiträume erhalten bleiben.
Nach dem Vorwärtsprozess verwandelt der Rückwärts- (oder Entrauschungs-) Prozess das Modell in einen leistungsstarken Bildgenerator. Diese Phase ist die Umkehrung der Vorwärtsphase: Das Modell beginnt mit reinem Gaußschem Rauschen – einem völlig zufälligen Bild – und entfernt iterativ das Rauschen, um neue Bilddaten zu rekonstruieren. Eine spezialisierte neuronale Netzwerkarchitektur, üblicherweise ein U-Net, wird für diesen Zweck trainiert. Während des Trainings lernt das U-Net, die Rauschkomponenten vorherzusagen, die während des Vorwärtsprozesses hinzugefügt wurden. In jedem Schritt des Rückwärtsprozesses verwendet es das aktuelle verrauschte Bild und den entsprechenden Zeitschritt, um vorherzusagen, wie das Rauschen zu reduzieren ist, wodurch allmählich ein klareres Bild enthüllt wird. Die Leistungsfähigkeit des Modells wird durch Minimierung einer Verlustfunktion, wie dem mittleren quadratischen Fehler, verfeinert, die die Diskrepanz zwischen dem vorhergesagten und dem tatsächlichen Rauschen misst. Dieser schrittweise Entrauschungsansatz bietet im Vergleich zu früheren Modellen wie GANs größere Stabilität und einen zuverlässigeren generativen Pfad, was zu ausdrucksstärkeren und interpretierbareren Lernergebnissen führt. Einmal vollständig trainiert, beinhaltet die Generierung eines neuen Bildes einfach die Ausführung dieses gelernten Rückwärtsprozesses von einem Ausgangspunkt reinen Rauschens.
Für Text-zu-Bild-Systeme wie DALL-E und Midjourney wird der Rückwärtsprozess durch Textkonditionierung gesteuert. Dieser Mechanismus ermöglicht es Benutzern, die Bildgenerierung mit natürlichsprachlichen Aufforderungen zu beeinflussen, um sicherzustellen, dass die Ausgabe mit ihren Textbeschreibungen übereinstimmt, anstatt zufällige Visualisierungen zu erzeugen. Dies wird erreicht, indem die Textaufforderung zunächst in eine numerische Darstellung oder „Vektoreinbettung“ unter Verwendung eines vortrainierten Textenkoders wie CLIP (Contrastive Language–Image Pre-training) umgewandelt wird. Diese Einbettung wird dann in die Architektur des Diffusionsmodells eingespeist, typischerweise über einen Mechanismus namens Kreuz-Attention. Kreuz-Attention ermöglicht es dem Modell, sich auf bestimmte Teile der Textaufforderung zu konzentrieren und den Bildgenerierungsprozess in jedem Entrauschungsschritt mit der Semantik der Aufforderung abzugleiten. Dies ist die grundlegende Brücke, die es diesen Plattformen ermöglicht, menschliche Sprache in fesselnde visuelle Kunst umzusetzen.
Obwohl sowohl DALL-E als auch Midjourney auf Diffusionsmodellen basieren, weisen ihre technischen Anwendungen und die daraus resultierenden künstlerischen Stile subtile Unterschiede auf. DALL-E verwendet im Allgemeinen ein Diffusionsmodell, das durch CLIP-basierte Einbettungen für die Textkonditionierung gesteuert wird, wobei die Einhaltung der Aufforderung durch Techniken wie die klassifikatorfreie Führung betont wird, die unkonditionierte und textkonditionierte Ausgaben ausgleicht. Midjourney hingegen verfügt über eine eigene proprietäre Diffusionsmodellarchitektur, die Berichten zufolge einen fein abgestimmten Bilddekoder enthält, der für höheren Realismus und eine stilistischere Interpretation optimiert ist. Dies führt oft dazu, dass Midjourney bei prägnanteren Aufforderungen hervorragende Ergebnisse liefert und potenziell eine höhere Standard-Führungsskala verwendet, während DALL-E in der Regel längere und komplexere Texteingaben verwalten kann, indem es sie verarbeitet, bevor sie in die Diffusionspipeline gelangen.
Letztendlich haben Diffusionsmodelle ihre Position als Eckpfeiler moderner Text-zu-Bild-Systeme gefestigt. Durch die Nutzung des eleganten Zusammenspiels von Vorwärts- und Rückwärts-Diffusionsprozessen, ergänzt durch ausgeklügelte Textkonditionierung, können diese Modelle abstrakte Textbeschreibungen in völlig neue, visuell reiche Bilder verwandeln und so die Grenzen der kreativen KI verschieben.