Modelos de Difusión: La Magia Detrás de DALL-E y Midjourney
La reciente explosión de la inteligencia artificial generativa, liderada por grandes modelos de lenguaje como ChatGPT, ha traído una nueva ola de innovación al ámbito general. Más allá de la generación de texto, estos potentes sistemas de IA han transformado la forma en que creamos contenido visual, dando lugar a herramientas como DALL-E y Midjourney. Estas plataformas populares, celebradas por su capacidad para conjurar imágenes intrincadas a partir de simples indicaciones de texto, no crean algo de la nada; en cambio, operan sobre una sofisticada tecnología subyacente conocida como modelos de difusión.
En su esencia, los modelos de difusión son una clase de algoritmos de IA generativa diseñados para producir nuevos datos que se alinean con sus ejemplos de entrenamiento. Para la generación de imágenes, esto significa construir visuales novedosos a partir de diversas entradas. A diferencia de los métodos generativos anteriores, los modelos de difusión operan a través de un proceso único de dos etapas: primero introducen sistemáticamente ruido en los datos, luego aprenden meticulosamente a eliminarlo, refinando eficazmente una imagen corrupta en un producto final. Se les puede considerar como avanzados motores de “eliminación de ruido”.
La base conceptual de los modelos de difusión surgió de una investigación pionera en 2015 por Sohl-Dickstein et al., quienes introdujeron la idea de convertir datos en ruido puro mediante un “proceso de difusión directa controlada”, para luego entrenar un modelo que revierta este proceso y reconstruya los datos originales. Basándose en esto, Ho et al. en 2020 presentaron el marco de difusión moderno, que avanzó significativamente el campo, capaz de generar imágenes de alta calidad que superaron incluso a modelos previamente dominantes como las redes generativas antagónicas (GANs).
La primera etapa crítica, el proceso directo (o de difusión), implica la corrupción gradual de una imagen. Comenzando con una imagen clara de un conjunto de datos, se añade incrementalmente una pequeña cantidad de ruido a lo largo de numerosos pasos —a menudo cientos o miles. Con cada iteración, la imagen se degrada progresivamente hasta que es indistinguible del ruido estático aleatorio. Este proceso se modela matemáticamente como una cadena de Markov, lo que significa que cada versión ruidosa depende únicamente del estado inmediatamente anterior. La razón detrás de esta degradación gradual, en lugar de una única transformación abrupta, es crucial: permite al modelo aprender las transiciones sutiles de datos ruidosos a menos ruidosos, equipándolo así para reconstruir imágenes paso a paso a partir de la pura aleatoriedad. La velocidad a la que se introduce el ruido se rige por un “programa de ruido”, que puede variar —un programa lineal añade ruido de forma constante, mientras que un programa coseno lo introduce más gradualmente, preservando las características de la imagen durante períodos más largos.
Después del proceso directo, el proceso inverso (o de eliminación de ruido) transforma el modelo en un potente generador de imágenes. Esta etapa es la inversa de la directa: el modelo comienza con ruido gaussiano puro —una imagen completamente aleatoria— y elimina iterativamente el ruido para reconstruir nuevos datos de imagen. Para este propósito se entrena una arquitectura de red neuronal especializada, comúnmente una U-Net. Durante el entrenamiento, la U-Net aprende a predecir los componentes de ruido que se añadieron durante el proceso directo. En cada paso del proceso inverso, utiliza la imagen ruidosa actual y el paso de tiempo correspondiente para predecir cómo reducir el ruido, revelando gradualmente una imagen más clara. La competencia del modelo se perfecciona minimizando una función de pérdida, como el error cuadrático medio, que mide la discrepancia entre el ruido predicho y el real. Este enfoque de eliminación de ruido paso a paso ofrece mayor estabilidad y una ruta generativa más fiable en comparación con modelos anteriores como las GANs, lo que lleva a resultados de aprendizaje más expresivos e interpretables. Una vez completamente entrenado, generar una nueva imagen simplemente implica ejecutar este proceso inverso aprendido desde un punto de partida de ruido puro.
Para sistemas de texto a imagen como DALL-E y Midjourney, el proceso inverso se guía por el condicionamiento de texto. Este mecanismo permite a los usuarios influir en la generación de imágenes con indicaciones en lenguaje natural, asegurando que la salida se alinee con sus descripciones textuales en lugar de producir visuales aleatorios. Esto se logra convirtiendo primero la indicación de texto en una representación numérica, o “incrustación vectorial”, utilizando un codificador de texto preentrenado como CLIP (Contrastive Language–Image Pre-training). Esta incrustación se alimenta luego a la arquitectura del modelo de difusión, típicamente a través de un mecanismo llamado atención cruzada. La atención cruzada permite que el modelo se centre en partes específicas de la indicación de texto y alinee el proceso de generación de imágenes con la semántica de la indicación en cada paso de eliminación de ruido. Este es el puente fundamental que permite a estas plataformas traducir el lenguaje humano en una atractiva expresión artística visual.
Aunque tanto DALL-E como Midjourney se basan en modelos de difusión, sus aplicaciones técnicas y los estilos artísticos resultantes exhiben diferencias sutiles. DALL-E generalmente emplea un modelo de difusión guiado por incrustaciones basadas en CLIP para el condicionamiento de texto, enfatizando la adherencia a la indicación a través de técnicas como la guía libre de clasificadores, que equilibra las salidas no condicionadas y condicionadas por texto. Midjourney, por el contrario, presenta su propia arquitectura de modelo de difusión propietaria, que según se informa incluye un decodificador de imagen finamente ajustado optimizado para un mayor realismo y una interpretación más estilística. Esto a menudo se traduce en que Midjourney destaca con indicaciones más concisas y potencialmente utiliza una escala de guía predeterminada más alta, mientras que DALL-E puede manejar típicamente entradas textuales más largas y complejas al procesarlas antes de que entren en la tubería de difusión.
En última instancia, los modelos de difusión han consolidado su posición como piedra angular de los sistemas modernos de texto a imagen. Al aprovechar la elegante interacción de los procesos de difusión directa e inversa, complementados con un sofisticado condicionamiento de texto, estos modelos pueden transformar descripciones textuales abstractas en imágenes completamente nuevas y visualmente ricas, empujando los límites de la IA creativa.