Descargar Z-Image Turbo: Modelo IA Open Source

Z-Image Turbo es el primer modelo publicado de la serie Z-Image, diseñado para generar imágenes de alta calidad usando muy pocos pasos de difusión (8 pasos internos). Se basa en un Single-Stream Diffusion Transformer optimizado con técnicas de distillation como Decoupled-DMD y DMDR. Actualmente, Z-ImageTurbo es el único modelo disponible para descarga y uso, tanto de forma manual como a través de herramientas y frontends compatibles.

Github Repo Hugging Face Repo

Descargar Z-ImageTurbo

NUESTRA RECOMENDACIÓN

El método de descarga y uso "oficial" de Z-Image que se explica en este artículo no es recomendable para usuarios principiantes o sin conocimientos técnicos, ya que no es nada "user-friendly". Si no tienes amplios conocimientos técnicos o simplemente prefieres optar por la opción más cómoda, te recomendamos encarecidamente que revises nuestra guía de instalación y uso de Z-Image con ComfyUI. Ir a la guía de instalación recomendada

Los autores proporcionan la descarga del modelo mediante Hugging Face usando la herramienta de línea de comandos hf del paquete huggingface_hub.

1. Instalar huggingface_hub

pip install -U huggingface_hub

2. Descargar el modelo

HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

Este comando descarga los archivos oficiales del modelo Tongyi-MAI/Z-Image-Turbo desde Hugging Face a tu entorno local.

Instalar diffusers (requisito para el uso manual con Python)

Los autores indican que es necesario instalar la última versión de diffusers desde el repositorio oficial para disponer del soporte más reciente para Z-Image.

pip install git+https://github.com/huggingface/diffusers

Uso nativo con PyTorch (opcional)

El repositorio oficial proporciona un modo de inferencia nativo con PyTorch mediante un script de ejemplo.

1. Instalar dependencias del repositorio

En un entorno virtual de tu elección, instala las dependencias con:

pip install -e .

2. Ejecutar inferencia nativa

Después, ejecuta el script de inferencia:

python inference.py

Este método utiliza el flujo de inferencia nativo definido en el repositorio. Los detalles concretos de configuración se gestionan dentro de inference.py según lo proporcionado por los autores.

Uso con Diffusers (modo avanzado)

Una vez instalado diffusers y descargado el modelo, puedes generar imágenes en Python utilizando la clase ZImagePipeline.

import torch from diffusers import ZImagePipeline # 1. Load the pipeline # Use bfloat16 for optimal performance on supported GPUs pipe = ZImagePipeline.from_pretrained( "Tongyi-MAI/Z-Image-Turbo", torch_dtype=torch.bfloat16, low_cpu_mem_usage=False, ) pipe.to("cuda") # [Optional] Attention Backend # Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported: # pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2 # pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3 # [Optional] Model Compilation # Compiling the DiT model accelerates inference, but the first run will take longer to compile. # pipe.transformer.compile() # [Optional] CPU Offloading # Enable CPU offloading for memory-constrained devices. # pipe.enable_model_cpu_offload() prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp, bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda, blurred colorful distant lights." # 2. Generate Image image = pipe( prompt=prompt, height=1024, width=1024, num_inference_steps=9, # This actually results in 8 DiT forwards guidance_scale=0.0, # Guidance should be 0 for the Turbo models generator=torch.Generator("cuda").manual_seed(42), ).images[0] image.save("example.png")

Puntos clave del uso con Diffusers

guidance_scale = 0.0 para los modelos Turbo.
num_inference_steps = 9 → internamente se realizan 8 pasos de DiT.
torch_dtype=torch.bfloat16 se recomienda en GPUs que soporten bfloat16 para mejorar rendimiento.
Las opciones de Flash Attention, compilación del modelo y CPU offloading son opcionales.

Cómo funciona Z-ImageTurbo (visión general de los autores)

Decoupled-DMD: la magia de la aceleración

Decoupled-DMD es el algoritmo de distillation de pocos pasos que impulsa el modelo Z-Image de 8 pasos. Los autores señalan que el éxito de los métodos de Distribution Matching Distillation (DMD) se debe a dos mecanismos independientes que colaboran:

CFG Augmentation (CA): el motor principal que impulsa el proceso de distillation.
Distribution Matching (DM): actúa como regularizador, asegurando la estabilidad y calidad del resultado.

Al reconocer y desacoplar estos dos mecanismos, es posible estudiarlos y optimizarlos por separado, lo que lleva a un proceso de distillation mejorado y a una generación en pocos pasos más estable y efectiva.

DMDR: DMD y Reinforcement Learning juntos

Sobre la base de Decoupled-DMD, el modelo de 8 pasos de Z-Image ya muestra capacidades sólidas. Para mejorar la alineación semántica, la calidad estética y la coherencia estructural, a la vez que se generan imágenes con más detalle de alta frecuencia, los autores presentan DMDR. La idea central es que el Reinforcement Learning (RL) y el Distribution Matching Distillation (DMD) pueden integrarse de forma sinérgica en el post-entrenamiento de modelos de pocos pasos:

El RL desbloquea el potencial de DMD.
DMD actúa como regularizador del proceso de RL.

Citación

Si utilizas Z-ImageTurbo o las técnicas asociadas en tu investigación, los autores piden citar los siguientes trabajos:

@article{team2025zimage, title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer}, author={Z-Image Team}, journal={arXiv preprint arXiv:2511.22699}, year={2025} }

@article{liu2025decoupled, title={Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield}, author={Dongyang Liu and Peng Gao and David Liu and Ruoyi Du and Zhen Li and Qilong Wu and Xin Jin and Sihan Cao and Shifeng Zhang and Hongsheng Li and Steven Hoi}, journal={arXiv preprint arXiv:2511.22677}, year={2025} } @article{jiang2025distribution, title={Distribution Matching Distillation Meets Reinforcement Learning}, author={Jiang, Dengyang and Liu, Dongyang and Wang, Zanyi and Wu, Qilong and Jin, Xin and Liu, David and Li, Zhen and Wang, Mengmeng and Gao, Peng and Yang, Harry}, journal={arXiv preprint arXiv:2511.13649}, year={2025} }