全解耦多模态模型推理与服务框架,扩展 vLLM 支持任意到任意模态的统一推理与高性能部署。
vLLM-Omni 是 vLLM 官方组织下的子项目,定位为全解耦(fully disaggregated)多模态模型推理与服务框架。其核心设计通过 Stage Abstraction 将复杂的 any-to-any 模型分解为以图表示的互连阶段,每个阶段由独立的 LLM 或 Diffusion 引擎驱动,通过 OmniConnector 实现跨阶段数据路由与动态资源分配。
在模态覆盖方面,vLLM-Omni 统一支持文本、图像、视频、音频四大模态的推理与服务。架构上同时兼容自回归(AR)模型与 Diffusion Transformer(DiT)等非自回归并行生成模型,支持异构混合流水线编排(如 LLM 推理级联 Diffusion 图像生成),以及多模态混合输出(文本+图像+音频同时生成)。
性能方面,沿用 vLLM 的高效 KV cache 管理实现 SOTA 级 AR 推理,并通过流水线阶段执行重叠(pipelined stage execution overlapping)与全解耦架构提升整体吞吐。论文报告显示,相比基线方法可降低任务完成时间(JCT)最高达 91.4%。
在易用性上,vLLM-Omni 提供离线推理 Python API 与 OpenAI 兼容的在线服务 API,支持流式输出,无缝集成 Hugging Face 模型,内置 ComfyUI 集成与 Diffusers Pipeline Adapter,并提供 Helm Chart 用于 Kubernetes 部署。支持的硬件后端包括 NVIDIA CUDA、AMD ROCm、Intel XPU、MThreads MUSA 及华为昇腾 NPU。
已验证支持的模型涵盖 Qwen2.5-Omni、Qwen3-Omni 等全模态模型,Tongyi-MAI/Z-Image-Turbo、HunyuanImage-3.0-Instruct 等图像生成模型,Helios、VACE 等视频生成模型,以及 Qwen3-TTS、CosyVoice3、Fish Speech S2 Pro 等音频/TTS 模型。
安装与快速开始
环境要求:Python 3.12、vLLM ≥ 0.19.0、Linux。
uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm==0.19.0 --torch-backend=auto
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
uv pip install -e .
离线推理示例(文本生图):
from vllm_omni.entrypoints.omni import Omni
omni = Omni(model="Tongyi-MAI/Z-Image-Turbo")
outputs = omni.generate("a cup of coffee on the table")
outputs[0].request_output.images[0].save("coffee.png")
在线服务启动:
vllm serve Tongyi-MAI/Z-Image-Turbo --omni --port 8091