Edge-Veda

Flutter 端侧全栈 AI SDK，支持 LLM、视觉、语音、绘图与 RAG，具备计算预算合约与自适应 QoS 能力，零云依赖。

Edge-Veda 是一款面向 Flutter 的端侧 AI SDK，定位为托管式端侧 AI 运行时，实现零云依赖的本地化推理。

项目定位#

解决移动端 AI 应用开发中隐私泄露、网络延迟及后端成本高的问题。将完整 AI 运行时下沉至终端设备，提供从多模态推理、语音处理到向量检索的全链路能力。

核心能力#

推理能力#

文本生成：流式/阻塞式 token 生成，支持多轮对话，性能 42–43 tok/s
视觉推理：VLM 模型处理相机帧，模型持久加载
图像生成：stable-diffusion.cpp + Metal GPU，512×512 约 14s

语音处理#

语音识别 (STT)：whisper.cpp + Metal GPU 加速，~670ms/3s chunk
语音合成 (TTS)：iOS AVSpeechSynthesizer 封装，零额外二进制体积

高级能力#

函数调用：ToolDefinition + ToolRegistry，支持多轮工具链，JSON 恢复机制
RAG 管道：内置纯 Dart HNSW VectorIndex + RagPipeline

运行时治理#

计算预算合约：声明 p95 延迟、电池消耗、热状态、内存上限
QoS 分级：Full / Reduced / Minimal / Paused 四级自适应降级
模型顾问：DeviceProfile 检测硬件，ModelAdvisor 四维评分

安装配置#

# pubspec.yaml
dependencies:
  edge_veda: ^2.4.1

iOS 最低版本要求 13.0，XCFramework (~31 MB) 在 pod install 时自动下载。

快速开始#

final edgeVeda = EdgeVeda();
await edgeVeda.init(EdgeVedaConfig(modelPath: modelPath));

// 流式生成
await for (final chunk in edgeVeda.generateStream('Explain quantum computing')) {
  stdout.write(chunk.token);
}

架构设计#

Flutter App (Dart)
  └── ChatSession / RagPipeline / VectorIndex
  └── EdgeVeda (generate, embed, describeImage)
  └── Workers (StreamingWorker, VisionWorker, WhisperWorker)
  └── Scheduler + EdgeVedaBudget + TelemetryService
  └── FFI Bindings (43 C functions)
       └── XCFramework (llama.cpp, whisper.cpp, stable-diffusion.cpp)

关键设计：所有推理在后台 isolate 运行，原生指针不跨边界传递，模型加载后常驻内存。

平台支持#

iOS：Metal GPU 全功能支持，最低 iOS 13.0
macOS：完整支持
Android：骨架已搭建，Vulkan GPU 支持规划中

代码规模#

~22,700 LOC / 40 C API 函数 / 32 Dart SDK 文件

主要语言：Dart (67.2%), C++ (8.7%), Shell (5.4%), Python (5.3%)