effGen

面向小语言模型优化的开源智能体框架，支持本地高效部署、多 Agent DAG 编排、RAG 管线与生产级 API Server，无需依赖云端 LLM API。

effGen 是一个专为小语言模型（SLM）设计的智能体框架，通过上下文压缩（70-80% 压缩率）、智能任务分解、五因子复杂度路由与推测执行等核心机制，显著提升小模型在 Agent 任务中的表现。论文报告在 1.5B 模型上成功率提升 11.2%，在 13 个 benchmark 上优于 LangChain、AutoGen、Smolagents 等框架。

框架支持 7 种推理后端：MLX（Apple Silicon 原生 Metal GPU 加速）、MLX-VLM（视觉语言模型）、vLLM（NVIDIA GPU）、Transformers（通用 CPU/GPU）、Cloud API（OpenAI/Anthropic/Gemini）、GGUF/AWQ/GPTQ 量化格式以及 Cerebras（开发中）。通过统一的 load_model 接口屏蔽后端差异。

Agent 循环基于 ReAct 范式，v0.2.0 版本提供 31 个内置工具，支持原生 function calling（Qwen、Llama、Mistral）与 hybrid 模式，内置 JSON/Pydantic 结构化输出验证。多 Agent 编排采用 DAG 工作流引擎，支持子 Agent 自动生成、并行执行、共享记忆及 A2A/MCP/ACP 协议。

RAG 管线覆盖 PDF/DOCX/HTML/Markdown 文档摄入、语义+BM25 混合检索、重排序与行内引用，向量存储支持 FAISS 与 Chroma。安全方面提供 PII 检测、Prompt 注入阻断、毒性过滤、工具权限控制与 Docker 沙箱隔离，可通过 get_guardrail_preset("strict") 一行启用。

生产部署方面，内置 OpenAI 兼容的 /v1/chat/completions API Server，提供请求排队、Agent 池化、多租户与 API Key 管理。框架附带 270 个测试用例，跨 11 个模型 × 10 个 Agent 的兼容性矩阵，集成 OpenTelemetry tracing 与 Prometheus 指标。除 Python 主库外，还提供 TypeScript 客户端 SDK 与 Conda 打包配方。

安装方式：

pip install effgen              # 基础安装
pip install effgen[mlx]         # Apple Silicon
pip install effgen[vllm]        # NVIDIA GPU
pip install effgen[all]         # 全量安装

快速使用：

from effgen import Agent, load_model
from effgen.core.agent import AgentConfig
from effgen.tools.builtin import Calculator, PythonREPL

model = load_model("Qwen/Qwen2.5-1.5B-Instruct", quantization="4bit")
config = AgentConfig(name="math_agent", model=model, tools=[Calculator(), PythonREPL()])
agent = Agent(config=config)
result = agent.run("What is 24344 * 334?")
print(result.output)

待确认事项：arXiv 论文声明 MIT License 而 GitHub 仓库标注 Apache License 2.0，实际以仓库为准；官方网站显示 14 个内置工具可能与 v0.2.0 的 31 个存在滞后；Cerebras 适配器尚为骨架阶段；13 个 benchmark 的具体名称与分数需查阅论文全文。

相关项目

memU Bot

debug-that

CookHero

保持更新