Ya puedes probar Flux, la alucinante IA generativa de los creadores de Stable Diffusion

Sus creadores aseguran que Flux1 [pro] y [dev] superan a modelos populares como Midjourney v6.0, DALL·E 3 (HD) y SD3-Ultra.

9 de agosto de 2024

De los creadores de los modelos de Stable Diffusion (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers), llega Flux, la IA generativa de texto a imágenes que ha sido creada y desarrollada por Robin Rombach, Andreas Blattmann y Dominik Lorenz (ingenieros insignia de Stability AI) junto con Patrick Esser.

Este grupo de ingenieros se ha independizado de Stable y han fundado su propia empresa, Black Forest Labs, y no ha perdido el tiempo. Y es que solo un par de semanas después ya ha presentado su IA generativa Flux.1, afirmando que es más precisa que su competencia, tanto en comprensión y adherencia a los prompts, generación de imágenes de más alta resolución y generación de detalles de forma más precisa.

En su anuncio oficial de presentación de su modelo afirman: «el conjunto FLUX.1 de modelos de texto a imagen definen un nuevo estado del arte en detalle de imagen, adherencia rápida, diversidad de estilos y complejidad de escenas para la síntesis de texto a imagen».

Un modelo de Flux para cada necesidad

Empecemos por el principio. Flux es un conjunto de modelos de texto a imagen desarrollados con un código abierto. Flux fue entrenada con una colección de datos inmensa, por lo que es capaz de generar imágenes fotorrealistas partiendo de descripciones en lenguaje natural. La baza con la que se presenta Flux en el hipercompetitivo mercado de las IA generadoras de imágenes es su profunda comprensión del lenguaje, con lo que puede entender e interpretar las descripciones más complejas y convertirlas en creaciones detalladas y coherentes.

Imágenes generadas con Flux AI — Imagen: Black Forest Labs

Para adaptarse a las necesidades de cada persona, Flux se presenta en tres versiones:

FLUX.1 [schnell]: la versión más básica. Orientada a usuarios particulares, esta es una versión rápida del modelo con una velocidad hasta 10 veces más rápida que las otras dos versiones. Está disponible con una licencia Apache 2.0.
FLUX.1 [dev]: este va dirigido a desarrolladores y mantiene un código abierto, aunque sus resultados no pueden ser usados con fines comerciales.
FLUX.1 [pro]: su público objetivo es el profesional que busca mayor calidad de imagen. Esta versión mantiene un código cerrado al que se puede acceder solo a través de una API.

Si bien el acceso a la versión Pro es restringido, la versión Dev y Schnell pueden usarse gratis (con limitaciones de créditos) a través de plataformas como Fal.AI y Replicate. En cualquier caso, también puedes optar por una suscripción de pago: el coste de generación de una imagen en Replicate con la versión Schnell de Flux es de menos de 1 céntimo. Además, en el caso de usar Schnell a través de Replicate, los resultados generados pueden ser aplicados con fines comerciales. También es posible descargar Dev y Schnell desde HuggingFace, donde también se encuentra un código de inferencia en GitHub que ayuda a los desarrolladores a comenzar a usar la plataforma, y cuentan con la integración de ComfyUI.

Lo creas o no esta imagen está generada con IA (Flux + LoRA).

Esta imagen lo cambia TODO:

– Se inicia un nuevo reinado: Flux (Bye,bye Midjourney, SD, Dalle, etc).
– Abandonamos el “valle inquietante”.

Ya nunca más podremos diferenciar lo que es real de lo que no lo es. pic.twitter.com/Bp6F01vECd

— Javi López ⛩️ (@javilop) August 9, 2024

Según explica Black Forest Labs, todas las variantes de Flux posee una calidad de imagen mejorada, ofreciendo una amplia gama de relaciones de aspecto y resoluciones que van desde los 0,1 hasta los 2,0 megapíxeles; una mejor y más realista precisión anatómica, solucionando el problema de las manos deformes en el que flaquean otros modelos de generación de imagen; y genera imágenes hasta 10 veces más rápido. Otro de los aspectos en los que destaca frente a otras IAs generadoras de imágenes es en la incorporación de texto a las creaciones.

Tal y como explican: “FLUX.1 [pro] y [dev] superan a modelos populares como Midjourney v6.0, DALL·E 3 (HD) y SD3-Ultra en cada uno de los siguientes aspectos: calidad visual, seguimiento rápido, variabilidad de tamaño/aspecto, tipografía y Diversidad de resultados. FLUX.1 [schnell] es el modelo de pocos pasos más avanzado hasta la fecha, superando a sus competidores de su clase, pero también a fuertes modelos no destilados como Midjourney v6.0 y DALL·E 3 (HD)”.

El futuro es la generación de vídeo

A la par del anuncio del lanzamiento de Flux, el equipo de Black Forest Labs ha anunciado sus planes a futuro: un próximo conjunto de sistemas generativos de texto a vídeo, que promete «desbloquear la creación y edición precisas en alta definición y a una velocidad sin precedentes», teniendo un impacto positivo en diferentes sectores, como el cine, la publicidad y la educación.

Todo el desarrollo de la familia Flux ha sido posible gracias al cierre de una ronda financiación inicial por 31 millones de dólares (28,44 millones de euros) por parte de Andreessen Horowitz, principal inversor de Black Forest Labs, y varios business angels, como Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila y Vladlen Koltun. Asimismo, el equipo ha recibido inversiones de seguimiento de General Catalyst y MätchVC.

Imagen: Flux en Replicate