AgentV

CLI-first 的轻量级 AI agent 评估与优化框架，完全本地运行，无需服务器或云账号。

AgentV 是一个面向 AI agent 开发者的评测框架，采用 CLI 优先的设计理念，所有评测在本地完成，不依赖云端基础设施。评测用例通过声明式 YAML/JSONL 文件定义，天然适配 Git 版本控制，保障团队协作的可复现性。

双轨评分体系

确定性评分器：contains、equals、regex、is-json、code-grader（自定义脚本）、execution-metrics 等，用于精确匹配与代码执行验证
LLM 评分器：llm-grader，通过 Markdown prompt 文件实现灵活的语义评判
多目标评分：单次运行同时衡量正确性、延迟、成本与安全性
结构化 Rubric 评分：基于权重与要求的分级评分体系

执行与输出

批量并行执行数百个测试用例
agentv compare 命令实现运行间 A/B 测试与回归检测
输出格式覆盖 JSONL（默认）、HTML dashboard、JUnit XML
CI/CD 原生适配：退出码、阈值标记、JUnit XML 输出

多 Agent 目标支持 Claude、Codex、Copilot、VS Code、Pi、Azure OpenAI、OpenRouter、Gemini、OpenAI 或任何 CLI agent，通过 .agentv/targets.yaml 统一配置。

集成与扩展

@agentv/core TypeScript SDK 提供 evaluate()、defineConfig()、defineAssertion()、defineCodeGrader() 编程式 API
内置 Claude Code 插件（.claude-plugin 目录）
轻量核心 + 插件扩展设计，仅内置通用原语

架构概览 Bun workspaces monorepo 结构：

packages/core — 评测引擎核心（provider 注册、评分器注册、编程式 API）
packages/eval — 轻量断言 SDK
apps/cli — CLI 命令行工具（发布为 agentv）
apps/studio — Web UI（React/Tailwind），可视化评测管理
apps/web — 官方文档站（Astro + MDX）
plugins/ — 插件目录

底层基于 Vercel AI SDK（LLM 调用）与 Zod（数据校验），打包使用 tsup，测试使用 Vitest，代码规范使用 Biome。Wire format 统一使用 snake_case，内部 TypeScript 使用 camelCase。设计原则遵循 YAGNI 与 AI-First（AI agent 是主要用户）。

快速开始

npm install -g agentv
agentv init                              # 初始化项目
agentv eval evals/example.yaml           # 运行评测
agentv compare .agentv/results/runs/<timestamp>/index.jsonl  # 对比结果

当前最新版本 v4.22.0（59 个 releases，935+ commits），所属组织 EntityProcess，MIT 许可证。

相关项目

ScrapeGraphAI

Orbit Agents

MCP-B

保持更新