智能AI模型级联库,通过推测执行动态选择最优模型,实现40-85%成本节省与2-10x延迟优化。
cascadeflow 是由 Lemony Inc. 开发的开源智能模型级联库(MIT 许可证),采用 Drafter-Validator 模式解决 LLM 调用成本高和延迟大的问题。
核心机制
项目采用推测执行策略:首先使用低成本模型(如 gpt-4o-mini,$0.15-0.30/1M tokens)生成草案响应,通过质量验证引擎检查长度、置信度、JSON 格式、语义对齐等维度。若质量达标则直接返回;若不达标,自动升级至昂贵模型($1.25-3.00/1M tokens)重新生成。
性能表现
- 成本节省:基准测试显示 40-93%(MT-Bench 69%, GSM8K 93%, MMLU 52%, TruthfulQA 80%)
- 延迟优化:小模型 <50ms vs 大模型 500-2000ms,整体提速 2-10x
- 框架开销:<2ms
- 质量保持:96% GPT-5 质量,70-80% 查询接受草案
智能路由系统
- 复杂度检测器:5 级分类
- 域专用路由:自动检测 15 个领域
- 预路由器:决定直接调用还是级联
- 工具路由器:工具调用场景优化
提供商支持
原生支持 OpenAI、Anthropic、Groq、Ollama、vLLM、Together、Hugging Face;通过 Vercel AI SDK 扩展至 17+ 提供商;可选 LiteLLM 集成支持 100+ 提供商。
集成方式
- Python SDK:
pip install cascadeflow[all] - TypeScript SDK:
npm install @cascadeflow/core - Gateway 模式:无需修改现有应用代码
- 框架集成:LangChain、n8n、FastAPI
快速开始
from cascadeflow import CascadeAgent, ModelConfig
agent = CascadeAgent(models=[
ModelConfig(name="gpt-4o-mini", provider="openai", cost=0.000375),
ModelConfig(name="gpt-5", provider="openai", cost=0.00562),
])
result = await agent.run("What's the capital of France?")
print(f"Model used: {result.model_used}")
print(f"Cost: ${result.total_cost:.6f}")
核心配置
- CascadeAgent:主协调器,支持
run(),run_streaming(),stream_events() - ModelConfig:定义模型名称、提供商、成本、速度、质量评分、专用域
- CascadeResult:30+ 诊断字段,包含内容、成本、延迟、复杂度、质量评分
适用场景
高并发 LLM 应用的成本控制、边缘/本地优先部署、低延迟聊天机器人与 Agent、结构化输出与工具调用场景。