面向边缘设备优化的快速精准实时语音识别解决方案。支持流式处理、语音意图识别与说话人识别,延迟远低于 Whisper(Medium 模型 Mac 仅 107ms),统一 API 跨 iOS、Android、Linux、Windows、macOS,适用于机器人控制、智能家居、IoT 设备等边缘场景。
Moonshine Voice 是 Useful Sensors 公司开发的自动语音识别(ASR)解决方案,专为边缘设备和实时流式应用设计,2024年10月发布。
核心优势#
- 灵活输入窗口:无 Whisper 固定 30 秒窗口限制,无零填充开销
- 流式缓存:支持增量音频输入,缓存编码器/解码器状态
- 极低延迟:Medium Streaming 模型 MacBook Pro 仅 107ms,Raspberry Pi 5 约 802ms
- 跨平台一致:统一 API 支持 iOS、Android、Linux、Windows、macOS
性能对比(vs Whisper)#
| 模型 | WER | 参数量 | MacBook Pro 延迟 | Raspberry Pi 5 延迟 |
|---|---|---|---|---|
| Moonshine Medium Streaming | 6.65% | 245M | 107ms | 802ms |
| Whisper Large v3 | 7.44% | 1.5B | 11,286ms | N/A |
| Moonshine Small Streaming | 7.84% | 123M | 73ms | 527ms |
| Whisper Small | 8.59% | 244M | 1,940ms | 10,397ms |
多语言支持#
英语、西班牙语、中文、日语、韩语、越南语、乌克兰语、阿拉伯语
模型规格#
| 架构 | 参数量 | 英文 WER |
|---|---|---|
| Tiny | 26M | 12.66% |
| Tiny Streaming | 34M | 12.00% |
| Base | 58M | 10.07% |
| Small Streaming | 123M | 7.84% |
| Medium Streaming | 245M | 6.65% |
核心能力#
- 实时语音转写(ASR)
- 语音意图识别(语义匹配预定义命令)
- 说话人识别(区分不同说话人)
- VAD 分段(基于 Silero VAD)
技术架构#
麦克风输入 → VAD (Silero) → 流式编码器 → 解码器 → 文本输出
↓
说话人识别
↓
意图识别
- 模型架构:Encoder-Decoder Transformer
- 位置编码:Rotary Position Embedding (RoPE)
- 推理引擎:ONNX Runtime(.ort 格式,内存映射优化)
- 量化策略:8-bit 权重 + 8-bit MatMul
快速开始#
pip install moonshine-voice
python -m moonshine_voice.download --language en
python -m moonshine_voice.mic_transcriber --language en
Python API 示例#
from moonshine_voice import Transcriber, TranscriptEventListener
transcriber = Transcriber(model_path=model_path, model_arch=model_arch)
class TestListener(TranscriptEventListener):
def on_line_completed(self, event):
print(f"Line completed: {event.line.text}")
transcriber.add_listener(TestListener())
transcriber.start()
transcriber.add_audio(audio_chunk, sample_rate)
transcriber.stop()
关键配置选项#
| 选项 | 说明 | 默认值 |
|---|---|---|
| update_interval | 转写更新间隔(秒) | 0.5s |
| max_tokens_per_second | 幻觉检测阈值 | 6.5 |
| vad_threshold | VAD 灵敏度 | 0.5 |
| identify_speakers | 说话人识别开关 | true |
适用场景#
- 实时语音转写应用(字幕生成、会议记录)
- 语音命令控制系统(机器人、智能家居、车载系统)
- 边缘设备语音交互(Raspberry Pi、IoT、可穿戴设备)
- 隐私敏感的离线语音处理场景