发现 AI 代理的未来arrow_forward

Moonshine Voice

calendar_today收录于 2026年2月22日
category模型与推理框架
code开源
PythonPyTorch多模态TransformersSDKCLI模型与推理框架模型训练/推理协议/API/集成

面向边缘设备优化的快速精准实时语音识别解决方案。支持流式处理、语音意图识别与说话人识别,延迟远低于 Whisper(Medium 模型 Mac 仅 107ms),统一 API 跨 iOS、Android、Linux、Windows、macOS,适用于机器人控制、智能家居、IoT 设备等边缘场景。

Moonshine Voice 是 Useful Sensors 公司开发的自动语音识别(ASR)解决方案,专为边缘设备和实时流式应用设计,2024年10月发布。

核心优势#

  • 灵活输入窗口:无 Whisper 固定 30 秒窗口限制,无零填充开销
  • 流式缓存:支持增量音频输入,缓存编码器/解码器状态
  • 极低延迟:Medium Streaming 模型 MacBook Pro 仅 107ms,Raspberry Pi 5 约 802ms
  • 跨平台一致:统一 API 支持 iOS、Android、Linux、Windows、macOS

性能对比(vs Whisper)#

模型WER参数量MacBook Pro 延迟Raspberry Pi 5 延迟
Moonshine Medium Streaming6.65%245M107ms802ms
Whisper Large v37.44%1.5B11,286msN/A
Moonshine Small Streaming7.84%123M73ms527ms
Whisper Small8.59%244M1,940ms10,397ms

多语言支持#

英语、西班牙语、中文、日语、韩语、越南语、乌克兰语、阿拉伯语

模型规格#

架构参数量英文 WER
Tiny26M12.66%
Tiny Streaming34M12.00%
Base58M10.07%
Small Streaming123M7.84%
Medium Streaming245M6.65%

核心能力#

  • 实时语音转写(ASR)
  • 语音意图识别(语义匹配预定义命令)
  • 说话人识别(区分不同说话人)
  • VAD 分段(基于 Silero VAD)

技术架构#

麦克风输入 → VAD (Silero) → 流式编码器 → 解码器 → 文本输出
                              ↓
                         说话人识别
                              ↓
                         意图识别
  • 模型架构:Encoder-Decoder Transformer
  • 位置编码:Rotary Position Embedding (RoPE)
  • 推理引擎:ONNX Runtime(.ort 格式,内存映射优化)
  • 量化策略:8-bit 权重 + 8-bit MatMul

快速开始#

pip install moonshine-voice
python -m moonshine_voice.download --language en
python -m moonshine_voice.mic_transcriber --language en

Python API 示例#

from moonshine_voice import Transcriber, TranscriptEventListener

transcriber = Transcriber(model_path=model_path, model_arch=model_arch)

class TestListener(TranscriptEventListener):
    def on_line_completed(self, event):
        print(f"Line completed: {event.line.text}")

transcriber.add_listener(TestListener())
transcriber.start()
transcriber.add_audio(audio_chunk, sample_rate)
transcriber.stop()

关键配置选项#

选项说明默认值
update_interval转写更新间隔(秒)0.5s
max_tokens_per_second幻觉检测阈值6.5
vad_thresholdVAD 灵敏度0.5
identify_speakers说话人识别开关true

适用场景#

  • 实时语音转写应用(字幕生成、会议记录)
  • 语音命令控制系统(机器人、智能家居、车载系统)
  • 边缘设备语音交互(Raspberry Pi、IoT、可穿戴设备)
  • 隐私敏感的离线语音处理场景

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch