Flutter 端侧全栈 AI SDK,支持 LLM、视觉、语音、绘图与 RAG,具备计算预算合约与自适应 QoS 能力,零云依赖。
Edge-Veda 是一款面向 Flutter 的端侧 AI SDK,定位为托管式端侧 AI 运行时,实现零云依赖的本地化推理。
项目定位#
解决移动端 AI 应用开发中隐私泄露、网络延迟及后端成本高的问题。将完整 AI 运行时下沉至终端设备,提供从多模态推理、语音处理到向量检索的全链路能力。
核心能力#
推理能力#
- 文本生成:流式/阻塞式 token 生成,支持多轮对话,性能 42–43 tok/s
- 视觉推理:VLM 模型处理相机帧,模型持久加载
- 图像生成:stable-diffusion.cpp + Metal GPU,512×512 约 14s
语音处理#
- 语音识别 (STT):whisper.cpp + Metal GPU 加速,~670ms/3s chunk
- 语音合成 (TTS):iOS AVSpeechSynthesizer 封装,零额外二进制体积
高级能力#
- 函数调用:ToolDefinition + ToolRegistry,支持多轮工具链,JSON 恢复机制
- RAG 管道:内置纯 Dart HNSW VectorIndex + RagPipeline
运行时治理#
- 计算预算合约:声明 p95 延迟、电池消耗、热状态、内存上限
- QoS 分级:Full / Reduced / Minimal / Paused 四级自适应降级
- 模型顾问:DeviceProfile 检测硬件,ModelAdvisor 四维评分
安装配置#
# pubspec.yaml
dependencies:
edge_veda: ^2.4.1
iOS 最低版本要求 13.0,XCFramework (~31 MB) 在 pod install 时自动下载。
快速开始#
final edgeVeda = EdgeVeda();
await edgeVeda.init(EdgeVedaConfig(modelPath: modelPath));
// 流式生成
await for (final chunk in edgeVeda.generateStream('Explain quantum computing')) {
stdout.write(chunk.token);
}
架构设计#
Flutter App (Dart)
└── ChatSession / RagPipeline / VectorIndex
└── EdgeVeda (generate, embed, describeImage)
└── Workers (StreamingWorker, VisionWorker, WhisperWorker)
└── Scheduler + EdgeVedaBudget + TelemetryService
└── FFI Bindings (43 C functions)
└── XCFramework (llama.cpp, whisper.cpp, stable-diffusion.cpp)
关键设计:所有推理在后台 isolate 运行,原生指针不跨边界传递,模型加载后常驻内存。
平台支持#
- iOS:Metal GPU 全功能支持,最低 iOS 13.0
- macOS:完整支持
- Android:骨架已搭建,Vulkan GPU 支持规划中
代码规模#
~22,700 LOC / 40 C API 函数 / 32 Dart SDK 文件
主要语言:Dart (67.2%), C++ (8.7%), Shell (5.4%), Python (5.3%)