cascadeflow

智能AI模型级联库，通过推测执行动态选择最优模型，实现40-85%成本节省与2-10x延迟优化。

cascadeflow 是由 Lemony Inc. 开发的开源智能模型级联库（MIT 许可证），采用 Drafter-Validator 模式解决 LLM 调用成本高和延迟大的问题。

核心机制

项目采用推测执行策略：首先使用低成本模型（如 gpt-4o-mini，$0.15-0.30/1M tokens）生成草案响应，通过质量验证引擎检查长度、置信度、JSON 格式、语义对齐等维度。若质量达标则直接返回；若不达标，自动升级至昂贵模型（$1.25-3.00/1M tokens）重新生成。

性能表现

成本节省：基准测试显示 40-93%（MT-Bench 69%, GSM8K 93%, MMLU 52%, TruthfulQA 80%）
延迟优化：小模型 <50ms vs 大模型 500-2000ms，整体提速 2-10x
框架开销：<2ms
质量保持：96% GPT-5 质量，70-80% 查询接受草案

智能路由系统

复杂度检测器：5 级分类
域专用路由：自动检测 15 个领域
预路由器：决定直接调用还是级联
工具路由器：工具调用场景优化

提供商支持

原生支持 OpenAI、Anthropic、Groq、Ollama、vLLM、Together、Hugging Face；通过 Vercel AI SDK 扩展至 17+ 提供商；可选 LiteLLM 集成支持 100+ 提供商。

集成方式

Python SDK: pip install cascadeflow[all]
TypeScript SDK: npm install @cascadeflow/core
Gateway 模式：无需修改现有应用代码
框架集成：LangChain、n8n、FastAPI

快速开始

from cascadeflow import CascadeAgent, ModelConfig

agent = CascadeAgent(models=[
    ModelConfig(name="gpt-4o-mini", provider="openai", cost=0.000375),
    ModelConfig(name="gpt-5", provider="openai", cost=0.00562),
])

result = await agent.run("What's the capital of France?")
print(f"Model used: {result.model_used}")
print(f"Cost: ${result.total_cost:.6f}")

核心配置

CascadeAgent：主协调器，支持 run(), run_streaming(), stream_events()
ModelConfig：定义模型名称、提供商、成本、速度、质量评分、专用域
CascadeResult：30+ 诊断字段，包含内容、成本、延迟、复杂度、质量评分

适用场景

高并发 LLM 应用的成本控制、边缘/本地优先部署、低延迟聊天机器人与 Agent、结构化输出与工具调用场景。

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新