发现 AI 代理的未来arrow_forward

MiniCPM-o

calendar_today收录于 2026年2月23日
category模型与推理框架
code开源
PythonPyTorch大语言模型多模态TransformersCLI模型与推理框架模型训练/推理计算机视觉/多模态

清华大学THUNLP推出的端到端全能多模态大模型,支持视觉理解、语音对话和全双工多模态实时流交互,性能接近Gemini 2.5 Flash,可在手机端高效运行。

项目简介#

MiniCPM-o 是由清华大学自然语言处理实验室(THUNLP)与 ModelBest 联合推出的端到端全能多模态大模型系列。该模型不仅支持传统的单图/多图/视频理解(Vision),还集成了强大的语音对话(Speech)能力,包括语音克隆、情感控制等,并创新性地实现了全双工多模态实时流(Full-Duplex Multimodal Live Streaming)——模型可以像人类一样同时进行"听、看、说",输入流与输出流互不阻塞。

模型版本#

MiniCPM-o 4.5 (9B参数)#

  • 最新旗舰版本,基于 SigLip2 + Whisper-medium + CosyVoice2 + Qwen3-8B 构建
  • OpenCompass 综合评估 77.6 分,接近 Gemini 2.5 Flash
  • 端到端多模态架构,支持视觉、语音、全双工多模态实时流

MiniCPM-V 4.0 (4.1B参数)#

  • 高效版本,基于 SigLIP2-400M + MiniCPM4-3B 构建
  • OpenCompass 综合评估 69.0 分,超越 GPT-4.1-mini-20250414
  • 适用于手机端部署,iPhone 16 Pro Max 上首token延迟 <2s

核心能力#

能力类别具体特性
视觉理解单图/多图/视频理解、OCR (最高1.8M像素)、高FPS视频(10fps)
语音能力中英双语实时语音对话、语音克隆、情感/语速/风格控制
全双工多模态实时流输入流与输出流互不阻塞,可同时看、听、说
主动交互1Hz 频率决策是否发言,支持主动提醒
多语言支持30+语言

技术架构#

模型组成#

  • 视觉编码器: SigLIP2 (400M参数)
  • 音频编码器: Whisper-medium
  • 语音解码器: CosyVoice2 / Step-Audio2
  • LLM 主干: Qwen3-8B

关键技术机制#

  1. 端到端全模态架构: 模态编码器/解码器与 LLM 通过隐藏状态紧密连接
  2. TDM (Time-Division Multiplexing): 时间分割复用机制,处理毫秒级时间线同步
  3. 全双工流机制: 将离线编码器/解码器改造为在线全双工版本
  4. 高效视觉压缩: 1.8M像素图像仅需640个视觉token(比同类模型少75%)

典型应用场景#

  • 实时语音助手(中英双语)
  • 角色扮演与语音克隆
  • 文档 OCR 解析(OmniDocBench SOTA)
  • 视觉问答(VQA)
  • 多模态实时交互(视频 + 音频 + 文本)
  • 端侧部署(手机、iPad、Mac)

环境要求#

  • Python 3.10+
  • transformers==4.51.0 (推荐)
  • PyTorch >= 2.3.0, <= 2.8.0

安装命令#

无TTS/流式推理版本:

pip install "transformers==4.51.0" accelerate "torch>=2.3.0,<=2.8.0" "torchaudio<=2.8.0" "minicpmo-utils>=1.0.5"

含TTS/流式推理版本:

pip install "transformers==4.51.0" accelerate "torch>=2.3.0,<=2.8.0" "torchaudio<=2.8.0" "minicpmo-utils[all]>=1.0.5"

模型加载示例#

import torch
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    'openbmb/MiniCPM-o-2_6',
    trust_remote_code=True,
    attn_implementation='sdpa',
    torch_dtype=torch.bfloat16,
    init_vision=True,
    init_audio=True,
    init_tts=True
)
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-o-2_6', trust_remote_code=True)
model.init_tts()

运行模式#

模式用途关键参数
Duplex Omni Mode全双工流式推理(实时/录像视频对话)omni_input=True
Half-Duplex Omni Mode半双工多模态对话(chat/streaming)use_tts_template=True
Speech Conversation语音对话(角色扮演/助手)mode='audio_roleplay' / 'audio_assistant'
Vision-Only纯视觉理解init_audio=False, init_tts=False

关键推理参数#

  • temperature: 默认 0.5
  • max_new_tokens: 最大生成token数(如 4096)
  • generate_audio: 是否生成音频输出
  • output_audio_path: 音频保存路径

语音系统提示配置#

ref_audio, _ = librosa.load('reference_audio.wav', sr=16000, mono=True)
sys_msg = model.get_sys_prompt(ref_audio=ref_audio, mode='omni', language='en')

支持的框架#

框架用途
vLLM高吞吐量推理
SGLang内存高效推理
llama.cpp / llama.cpp-omni本地设备 CPU 推理
Ollama简化部署
LLaMA-Factory微调
SWIFT微调
FlagOS多芯片统一后端

许可证#

Apache-2.0

开发机构#

THUNLP(清华大学自然语言处理实验室)与 ModelBest

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch