vLLM-Omni

全解耦多模态模型推理与服务框架，扩展 vLLM 支持任意到任意模态的统一推理与高性能部署。

vLLM-Omni 是 vLLM 官方组织下的子项目，定位为全解耦（fully disaggregated）多模态模型推理与服务框架。其核心设计通过 Stage Abstraction 将复杂的 any-to-any 模型分解为以图表示的互连阶段，每个阶段由独立的 LLM 或 Diffusion 引擎驱动，通过 OmniConnector 实现跨阶段数据路由与动态资源分配。

在模态覆盖方面，vLLM-Omni 统一支持文本、图像、视频、音频四大模态的推理与服务。架构上同时兼容自回归（AR）模型与 Diffusion Transformer（DiT）等非自回归并行生成模型，支持异构混合流水线编排（如 LLM 推理级联 Diffusion 图像生成），以及多模态混合输出（文本+图像+音频同时生成）。

性能方面，沿用 vLLM 的高效 KV cache 管理实现 SOTA 级 AR 推理，并通过流水线阶段执行重叠（pipelined stage execution overlapping）与全解耦架构提升整体吞吐。论文报告显示，相比基线方法可降低任务完成时间（JCT）最高达 91.4%。

在易用性上，vLLM-Omni 提供离线推理 Python API 与 OpenAI 兼容的在线服务 API，支持流式输出，无缝集成 Hugging Face 模型，内置 ComfyUI 集成与 Diffusers Pipeline Adapter，并提供 Helm Chart 用于 Kubernetes 部署。支持的硬件后端包括 NVIDIA CUDA、AMD ROCm、Intel XPU、MThreads MUSA 及华为昇腾 NPU。

已验证支持的模型涵盖 Qwen2.5-Omni、Qwen3-Omni 等全模态模型，Tongyi-MAI/Z-Image-Turbo、HunyuanImage-3.0-Instruct 等图像生成模型，Helios、VACE 等视频生成模型，以及 Qwen3-TTS、CosyVoice3、Fish Speech S2 Pro 等音频/TTS 模型。

安装与快速开始

环境要求：Python 3.12、vLLM ≥ 0.19.0、Linux。

uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm==0.19.0 --torch-backend=auto
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
uv pip install -e .

离线推理示例（文本生图）：

from vllm_omni.entrypoints.omni import Omni
omni = Omni(model="Tongyi-MAI/Z-Image-Turbo")
outputs = omni.generate("a cup of coffee on the table")
outputs[0].request_output.images[0].save("coffee.png")

在线服务启动：

vllm serve Tongyi-MAI/Z-Image-Turbo --omni --port 8091

相关项目

Zylos Core

verl

Kalshi AI Trading Bot

保持更新