Z-Image Turbo es el primer modelo publicado de la serie Z-Image, diseñado para generar imágenes de alta calidad usando muy pocos pasos de difusión (8 pasos internos). Se basa en un Single-Stream Diffusion Transformer optimizado con técnicas de distillation como Decoupled-DMD y DMDR. Actualmente, Z-ImageTurbo es el único modelo disponible para descarga y uso, tanto de forma manual como a través de herramientas y frontends compatibles.
Descargar Z-ImageTurbo
El método de descarga y uso «oficial» de Z-Image que se explica en este artículo no es recomendable para usuarios principiantes o sin conocimientos técnicos, ya que no es nada «user-friendly». Si no tienes amplios conocimientos técnicos o simplemente prefieres optar por la opción más cómoda, te recomendamos encarecidamente que revises nuestra guía de instalación y uso de Z-Image con ComfyUI.
Los autores proporcionan la descarga del modelo mediante Hugging Face usando la herramienta de línea de comandos hf del paquete huggingface_hub.
1. Instalar huggingface_hub
pip install -U huggingface_hub
2. Descargar el modelo
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo
Este comando descarga los archivos oficiales del modelo Tongyi-MAI/Z-Image-Turbo desde Hugging Face a tu entorno local.
Instalar diffusers (requisito para el uso manual con Python)
Los autores indican que es necesario instalar la última versión de diffusers desde el repositorio oficial para disponer del soporte más reciente para Z-Image.
pip install git+https://github.com/huggingface/diffusers
Uso nativo con PyTorch (opcional)
El repositorio oficial proporciona un modo de inferencia nativo con PyTorch mediante un script de ejemplo.
1. Instalar dependencias del repositorio
En un entorno virtual de tu elección, instala las dependencias con:
pip install -e .
2. Ejecutar inferencia nativa
Después, ejecuta el script de inferencia:
python inference.py
Este método utiliza el flujo de inferencia nativo definido en el repositorio. Los detalles concretos de
configuración se gestionan dentro de inference.py según lo proporcionado por los autores.
Uso con Diffusers (modo avanzado)
Una vez instalado diffusers y descargado el modelo, puedes generar imágenes en Python
utilizando la clase ZImagePipeline.
import torch
from diffusers import ZImagePipeline
# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3
# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()
# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()
prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."
# 2. Generate Image
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # This actually results in 8 DiT forwards
guidance_scale=0.0, # Guidance should be 0 for the Turbo models
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("example.png")
Puntos clave del uso con Diffusers
guidance_scale = 0.0para los modelos Turbo.num_inference_steps = 9→ internamente se realizan 8 pasos de DiT.torch_dtype=torch.bfloat16se recomienda en GPUs que soportenbfloat16para mejorar rendimiento.- Las opciones de Flash Attention, compilación del modelo y CPU offloading son opcionales.
Cómo funciona Z-ImageTurbo (visión general de los autores)
Decoupled-DMD: la magia de la aceleración
Decoupled-DMD es el algoritmo de distillation de pocos pasos que impulsa el modelo
Z-Image de 8 pasos. Los autores señalan que el éxito de los métodos de
Distribution Matching Distillation (DMD) se debe a dos mecanismos independientes que colaboran:
- CFG Augmentation (CA): el motor principal que impulsa el proceso de distillation.
- Distribution Matching (DM): actúa como regularizador, asegurando la estabilidad
y calidad del resultado.
Al reconocer y desacoplar estos dos mecanismos, es posible estudiarlos y optimizarlos por separado, lo
que lleva a un proceso de distillation mejorado y a una generación en pocos pasos más estable y efectiva.
DMDR: DMD y Reinforcement Learning juntos
Sobre la base de Decoupled-DMD, el modelo de 8 pasos de Z-Image ya muestra capacidades sólidas.
Para mejorar la alineación semántica, la calidad estética y la coherencia estructural, a la vez que se
generan imágenes con más detalle de alta frecuencia, los autores presentan DMDR.
La idea central es que el Reinforcement Learning (RL) y el
Distribution Matching Distillation (DMD) pueden integrarse de forma sinérgica en el
post-entrenamiento de modelos de pocos pasos:
- El RL desbloquea el potencial de DMD.
- DMD actúa como regularizador del proceso de RL.
Citación
Si utilizas Z-ImageTurbo o las técnicas asociadas en tu investigación, los autores piden citar los siguientes trabajos:
@article{team2025zimage,
title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer},
author={Z-Image Team},
journal={arXiv preprint arXiv:2511.22699},
year={2025}
}
@article{liu2025decoupled,
title={Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield},
author={Dongyang Liu and Peng Gao and David Liu and Ruoyi Du and Zhen Li and Qilong Wu and Xin Jin and Sihan Cao and Shifeng Zhang and Hongsheng Li and Steven Hoi},
journal={arXiv preprint arXiv:2511.22677},
year={2025}
}
@article{jiang2025distribution,
title={Distribution Matching Distillation Meets Reinforcement Learning},
author={Jiang, Dengyang and Liu, Dongyang and Wang, Zanyi and Wu, Qilong and Jin, Xin and Liu, David and Li, Zhen and Wang, Mengmeng and Gao, Peng and Yang, Harry},
journal={arXiv preprint arXiv:2511.13649},
year={2025}
}