发现 AI 代理的未来arrow_forward

AgentV

calendar_today收录于 2026年4月25日
category智能体与应用工具
code开源
TypeScriptAI代理CLIBun智能体与应用工具开发者工具/代码

CLI-first 的轻量级 AI agent 评估与优化框架,完全本地运行,无需服务器或云账号。

AgentV 是一个面向 AI agent 开发者的评测框架,采用 CLI 优先的设计理念,所有评测在本地完成,不依赖云端基础设施。评测用例通过声明式 YAML/JSONL 文件定义,天然适配 Git 版本控制,保障团队协作的可复现性。

双轨评分体系

  • 确定性评分器:containsequalsregexis-jsoncode-grader(自定义脚本)、execution-metrics 等,用于精确匹配与代码执行验证
  • LLM 评分器:llm-grader,通过 Markdown prompt 文件实现灵活的语义评判
  • 多目标评分:单次运行同时衡量正确性、延迟、成本与安全性
  • 结构化 Rubric 评分:基于权重与要求的分级评分体系

执行与输出

  • 批量并行执行数百个测试用例
  • agentv compare 命令实现运行间 A/B 测试与回归检测
  • 输出格式覆盖 JSONL(默认)、HTML dashboard、JUnit XML
  • CI/CD 原生适配:退出码、阈值标记、JUnit XML 输出

多 Agent 目标支持 Claude、Codex、Copilot、VS Code、Pi、Azure OpenAI、OpenRouter、Gemini、OpenAI 或任何 CLI agent,通过 .agentv/targets.yaml 统一配置。

集成与扩展

  • @agentv/core TypeScript SDK 提供 evaluate()defineConfig()defineAssertion()defineCodeGrader() 编程式 API
  • 内置 Claude Code 插件(.claude-plugin 目录)
  • 轻量核心 + 插件扩展设计,仅内置通用原语

架构概览 Bun workspaces monorepo 结构:

  • packages/core — 评测引擎核心(provider 注册、评分器注册、编程式 API)
  • packages/eval — 轻量断言 SDK
  • apps/cli — CLI 命令行工具(发布为 agentv
  • apps/studio — Web UI(React/Tailwind),可视化评测管理
  • apps/web — 官方文档站(Astro + MDX)
  • plugins/ — 插件目录

底层基于 Vercel AI SDK(LLM 调用)与 Zod(数据校验),打包使用 tsup,测试使用 Vitest,代码规范使用 Biome。Wire format 统一使用 snake_case,内部 TypeScript 使用 camelCase。设计原则遵循 YAGNI 与 AI-First(AI agent 是主要用户)。

快速开始

npm install -g agentv
agentv init                              # 初始化项目
agentv eval evals/example.yaml           # 运行评测
agentv compare .agentv/results/runs/<timestamp>/index.jsonl  # 对比结果

当前最新版本 v4.22.0(59 个 releases,935+ commits),所属组织 EntityProcess,MIT 许可证。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch