Moonshine Voice

面向边缘设备优化的快速精准实时语音识别解决方案。支持流式处理、语音意图识别与说话人识别，延迟远低于 Whisper（Medium 模型 Mac 仅 107ms），统一 API 跨 iOS、Android、Linux、Windows、macOS，适用于机器人控制、智能家居、IoT 设备等边缘场景。

Moonshine Voice 是 Useful Sensors 公司开发的自动语音识别（ASR）解决方案，专为边缘设备和实时流式应用设计，2024年10月发布。

核心优势#

灵活输入窗口：无 Whisper 固定 30 秒窗口限制，无零填充开销
流式缓存：支持增量音频输入，缓存编码器/解码器状态
极低延迟：Medium Streaming 模型 MacBook Pro 仅 107ms，Raspberry Pi 5 约 802ms
跨平台一致：统一 API 支持 iOS、Android、Linux、Windows、macOS

性能对比（vs Whisper）#

模型	WER	参数量	MacBook Pro 延迟	Raspberry Pi 5 延迟
Moonshine Medium Streaming	6.65%	245M	107ms	802ms
Whisper Large v3	7.44%	1.5B	11,286ms	N/A
Moonshine Small Streaming	7.84%	123M	73ms	527ms
Whisper Small	8.59%	244M	1,940ms	10,397ms

多语言支持#

英语、西班牙语、中文、日语、韩语、越南语、乌克兰语、阿拉伯语

模型规格#

架构	参数量	英文 WER
Tiny	26M	12.66%
Tiny Streaming	34M	12.00%
Base	58M	10.07%
Small Streaming	123M	7.84%
Medium Streaming	245M	6.65%

核心能力#

实时语音转写（ASR）
语音意图识别（语义匹配预定义命令）
说话人识别（区分不同说话人）
VAD 分段（基于 Silero VAD）

技术架构#

麦克风输入 → VAD (Silero) → 流式编码器 → 解码器 → 文本输出
                              ↓
                         说话人识别
                              ↓
                         意图识别

模型架构：Encoder-Decoder Transformer
位置编码：Rotary Position Embedding (RoPE)
推理引擎：ONNX Runtime（.ort 格式，内存映射优化）
量化策略：8-bit 权重 + 8-bit MatMul

快速开始#

pip install moonshine-voice
python -m moonshine_voice.download --language en
python -m moonshine_voice.mic_transcriber --language en

Python API 示例#

from moonshine_voice import Transcriber, TranscriptEventListener

transcriber = Transcriber(model_path=model_path, model_arch=model_arch)

class TestListener(TranscriptEventListener):
    def on_line_completed(self, event):
        print(f"Line completed: {event.line.text}")

transcriber.add_listener(TestListener())
transcriber.start()
transcriber.add_audio(audio_chunk, sample_rate)
transcriber.stop()

关键配置选项#

选项	说明	默认值
update_interval	转写更新间隔（秒）	0.5s
max_tokens_per_second	幻觉检测阈值	6.5
vad_threshold	VAD 灵敏度	0.5
identify_speakers	说话人识别开关	true

适用场景#

实时语音转写应用（字幕生成、会议记录）
语音命令控制系统（机器人、智能家居、车载系统）
边缘设备语音交互（Raspberry Pi、IoT、可穿戴设备）
隐私敏感的离线语音处理场景

核心优势#

性能对比（vs Whisper）#

多语言支持#

模型规格#

核心能力#

技术架构#

快速开始#

Python API 示例#

关键配置选项#

适用场景#

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新