Descargar Z-Image Turbo: Modelo IA Open Source
Z-Image Turbo es el primer modelo publicado de la serie Z-Image, diseñado para generar imágenes de alta calidad usando muy pocos pasos de difusión (8 pasos internos). Se basa en un Single-Stream Diffusion Transformer optimizado con técnicas de distillation como Decoupled-DMD y DMDR. Actualmente, Z-ImageTurbo es el único modelo disponible para descarga y uso, tanto de forma manual como a través de herramientas y frontends compatibles.Descargar Z-ImageTurbo
hf del paquete huggingface_hub.
1. Instalar huggingface_hub
pip install -U huggingface_hub
2. Descargar el modelo
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo
Tongyi-MAI/Z-Image-Turbo desde Hugging Face a tu entorno local.
Instalar diffusers (requisito para el uso manual con Python)
Los autores indican que es necesario instalar la última versión de diffusers desde el repositorio oficial para disponer del soporte más reciente para Z-Image.pip install git+https://github.com/huggingface/diffusers
Uso nativo con PyTorch (opcional)
El repositorio oficial proporciona un modo de inferencia nativo con PyTorch mediante un script de ejemplo.1. Instalar dependencias del repositorio
En un entorno virtual de tu elección, instala las dependencias con:pip install -e .
2. Ejecutar inferencia nativa
Después, ejecuta el script de inferencia:python inference.py
inference.py según lo proporcionado por los autores.
Uso con Diffusers (modo avanzado)
Una vez instalado diffusers y descargado el modelo, puedes generar imágenes en Python utilizando la claseZImagePipeline.
import torch
from diffusers import ZImagePipeline
# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3
# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()
# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()
prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp, bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda, blurred colorful distant lights."
# 2. Generate Image
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # This actually results in 8 DiT forwards
guidance_scale=0.0, # Guidance should be 0 for the Turbo models
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("example.png")
Puntos clave del uso con Diffusers
guidance_scale = 0.0para los modelos Turbo.num_inference_steps = 9→ internamente se realizan 8 pasos de DiT.torch_dtype=torch.bfloat16se recomienda en GPUs que soportenbfloat16para mejorar rendimiento.- Las opciones de Flash Attention, compilación del modelo y CPU offloading son opcionales.
Cómo funciona Z-ImageTurbo (visión general de los autores)
Decoupled-DMD: la magia de la aceleración
Decoupled-DMD es el algoritmo de distillation de pocos pasos que impulsa el modelo Z-Image de 8 pasos. Los autores señalan que el éxito de los métodos de Distribution Matching Distillation (DMD) se debe a dos mecanismos independientes que colaboran:- CFG Augmentation (CA): el motor principal que impulsa el proceso de distillation.
- Distribution Matching (DM): actúa como regularizador, asegurando la estabilidad y calidad del resultado.
DMDR: DMD y Reinforcement Learning juntos
Sobre la base de Decoupled-DMD, el modelo de 8 pasos de Z-Image ya muestra capacidades sólidas. Para mejorar la alineación semántica, la calidad estética y la coherencia estructural, a la vez que se generan imágenes con más detalle de alta frecuencia, los autores presentan DMDR. La idea central es que el Reinforcement Learning (RL) y el Distribution Matching Distillation (DMD) pueden integrarse de forma sinérgica en el post-entrenamiento de modelos de pocos pasos:- El RL desbloquea el potencial de DMD.
- DMD actúa como regularizador del proceso de RL.
Citación
Si utilizas Z-ImageTurbo o las técnicas asociadas en tu investigación, los autores piden citar los siguientes trabajos:@article{team2025zimage,
title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer},
author={Z-Image Team},
journal={arXiv preprint arXiv:2511.22699},
year={2025}
}