CLI-first 的轻量级 AI agent 评估与优化框架,完全本地运行,无需服务器或云账号。
AgentV 是一个面向 AI agent 开发者的评测框架,采用 CLI 优先的设计理念,所有评测在本地完成,不依赖云端基础设施。评测用例通过声明式 YAML/JSONL 文件定义,天然适配 Git 版本控制,保障团队协作的可复现性。
双轨评分体系
- 确定性评分器:
contains、equals、regex、is-json、code-grader(自定义脚本)、execution-metrics等,用于精确匹配与代码执行验证 - LLM 评分器:
llm-grader,通过 Markdown prompt 文件实现灵活的语义评判 - 多目标评分:单次运行同时衡量正确性、延迟、成本与安全性
- 结构化 Rubric 评分:基于权重与要求的分级评分体系
执行与输出
- 批量并行执行数百个测试用例
agentv compare命令实现运行间 A/B 测试与回归检测- 输出格式覆盖 JSONL(默认)、HTML dashboard、JUnit XML
- CI/CD 原生适配:退出码、阈值标记、JUnit XML 输出
多 Agent 目标支持
Claude、Codex、Copilot、VS Code、Pi、Azure OpenAI、OpenRouter、Gemini、OpenAI 或任何 CLI agent,通过 .agentv/targets.yaml 统一配置。
集成与扩展
@agentv/coreTypeScript SDK 提供evaluate()、defineConfig()、defineAssertion()、defineCodeGrader()编程式 API- 内置 Claude Code 插件(
.claude-plugin目录) - 轻量核心 + 插件扩展设计,仅内置通用原语
架构概览 Bun workspaces monorepo 结构:
packages/core— 评测引擎核心(provider 注册、评分器注册、编程式 API)packages/eval— 轻量断言 SDKapps/cli— CLI 命令行工具(发布为agentv)apps/studio— Web UI(React/Tailwind),可视化评测管理apps/web— 官方文档站(Astro + MDX)plugins/— 插件目录
底层基于 Vercel AI SDK(LLM 调用)与 Zod(数据校验),打包使用 tsup,测试使用 Vitest,代码规范使用 Biome。Wire format 统一使用 snake_case,内部 TypeScript 使用 camelCase。设计原则遵循 YAGNI 与 AI-First(AI agent 是主要用户)。
快速开始
npm install -g agentv
agentv init # 初始化项目
agentv eval evals/example.yaml # 运行评测
agentv compare .agentv/results/runs/<timestamp>/index.jsonl # 对比结果
当前最新版本 v4.22.0(59 个 releases,935+ commits),所属组织 EntityProcess,MIT 许可证。