面向小语言模型优化的开源智能体框架,支持本地高效部署、多 Agent DAG 编排、RAG 管线与生产级 API Server,无需依赖云端 LLM API。
effGen 是一个专为小语言模型(SLM)设计的智能体框架,通过上下文压缩(70-80% 压缩率)、智能任务分解、五因子复杂度路由与推测执行等核心机制,显著提升小模型在 Agent 任务中的表现。论文报告在 1.5B 模型上成功率提升 11.2%,在 13 个 benchmark 上优于 LangChain、AutoGen、Smolagents 等框架。
框架支持 7 种推理后端:MLX(Apple Silicon 原生 Metal GPU 加速)、MLX-VLM(视觉语言模型)、vLLM(NVIDIA GPU)、Transformers(通用 CPU/GPU)、Cloud API(OpenAI/Anthropic/Gemini)、GGUF/AWQ/GPTQ 量化格式以及 Cerebras(开发中)。通过统一的 load_model 接口屏蔽后端差异。
Agent 循环基于 ReAct 范式,v0.2.0 版本提供 31 个内置工具,支持原生 function calling(Qwen、Llama、Mistral)与 hybrid 模式,内置 JSON/Pydantic 结构化输出验证。多 Agent 编排采用 DAG 工作流引擎,支持子 Agent 自动生成、并行执行、共享记忆及 A2A/MCP/ACP 协议。
RAG 管线覆盖 PDF/DOCX/HTML/Markdown 文档摄入、语义+BM25 混合检索、重排序与行内引用,向量存储支持 FAISS 与 Chroma。安全方面提供 PII 检测、Prompt 注入阻断、毒性过滤、工具权限控制与 Docker 沙箱隔离,可通过 get_guardrail_preset("strict") 一行启用。
生产部署方面,内置 OpenAI 兼容的 /v1/chat/completions API Server,提供请求排队、Agent 池化、多租户与 API Key 管理。框架附带 270 个测试用例,跨 11 个模型 × 10 个 Agent 的兼容性矩阵,集成 OpenTelemetry tracing 与 Prometheus 指标。除 Python 主库外,还提供 TypeScript 客户端 SDK 与 Conda 打包配方。
安装方式:
pip install effgen # 基础安装
pip install effgen[mlx] # Apple Silicon
pip install effgen[vllm] # NVIDIA GPU
pip install effgen[all] # 全量安装
快速使用:
from effgen import Agent, load_model
from effgen.core.agent import AgentConfig
from effgen.tools.builtin import Calculator, PythonREPL
model = load_model("Qwen/Qwen2.5-1.5B-Instruct", quantization="4bit")
config = AgentConfig(name="math_agent", model=model, tools=[Calculator(), PythonREPL()])
agent = Agent(config=config)
result = agent.run("What is 24344 * 334?")
print(result.output)
待确认事项:arXiv 论文声明 MIT License 而 GitHub 仓库标注 Apache License 2.0,实际以仓库为准;官方网站显示 14 个内置工具可能与 v0.2.0 的 31 个存在滞后;Cerebras 适配器尚为骨架阶段;13 个 benchmark 的具体名称与分数需查阅论文全文。