基于 WebDriver BiDi 协议的 AI 原生浏览器自动化工具,以单一轻量二进制文件同时赋能 AI Agent(如 Claude Code、Gemini CLI)与人类开发者完成 Web 交互、测试与数据采集。
定位#
Vibium 是一款 AI 原生浏览器自动化工具,基于 WebDriver BiDi 标准协议构建,解决传统工具依赖 CSS 选择器、环境配置繁琐、缺乏 AI Agent 原生集成等问题。
核心特性#
- AI 原生集成:可作为 Agent Skill 安装到 Claude Code、Codex、Gemini 等 AI agent,也可作为 MCP Server 运行
- 语义化元素定位:通过可见文本、表单 label、placeholder、ARIA role 等语义方式查找元素,无需 CSS 选择器
- 页面映射(Map):
vibium map将页面交互元素映射为@e1、@e2等引用,vibium diff map查看变化 - 零配置:一条命令安装,自动下载 Chrome 浏览器,默认可见模式运行
- 轻量级:单一约 10MB 二进制文件,无运行时依赖
- 异步/同步双 API:JS/TS、Python、Java 客户端库均提供 async 和 sync 两套 API
- 捕获与录制:截图(含元素标注)、PDF 导出、JavaScript 执行、会话录制与回放
架构设计#
┌──────────────────────────────────────┐
│ LLM / Agent │
│ (Claude Code, Codex, Gemini, etc.) │
└──────────────────────────────────────┘
▲ CLI (Bash) ▲ MCP (stdio)
▼ ▼
┌───────────────────────────────────┐
│ Vibium binary │
│ ┌──────────────┐ ┌────────────┐ │
│ │ CLI Commands │ │ MCP Server │ │
│ └──────┬───────┘ └──────┬─────┘ │
│ └───────▲─────────┘ │
│ ┌─────▼───────┐ │ BiDi ┌──────────────┐
│ │ BiDi Proxy │◄────────►│ Chrome Browser │
│ └─────────────┘ │ └──────────────┘
└───────────────────────────────────┘
▲
│ WebSocket BiDi :9515
▼
┌──────────────────────────────────────┐
│ Client Libraries │
│ (js/ts | python | java) │
│ ┌─────────────────┐ ┌────────────┐ │
│ │ Async API │ │ Sync API │ │
│ └─────────────────┘ └────────────┘ │
└──────────────────────────────────────┘
核心二进制使用 Go 语言编写,内嵌 CLI 与 MCP Server 两大入口。BiDi Proxy 作为中间代理层桥接上层指令与底层 Chrome 浏览器,通信基于 WebDriver BiDi(WebSocket,默认端口 9515)。客户端库通过 WebSocket BiDi 连接 Vibium 二进制而非直接连接浏览器。
安装与使用#
CLI / Agent Skill
npm install -g vibium
npx skills add https://github.com/VibiumDev/vibium --skill vibe-check
MCP Server
claude mcp add vibium -- npx -y vibium mcp
gemini mcp add vibium npx -y vibium mcp
语言客户端
npm install vibium # JavaScript/TypeScript
pip install vibium # Python
Java (Gradle): implementation 'com.vibium:vibium:26.3.18'
CLI 核心命令
vibium go https://example.com # 导航
vibium map # 映射交互元素
vibium click @e1 # 点击
vibium diff map # 查看变化
vibium find text "Sign In" # 语义查找
vibium fill @e2 "hello@example.com" # 填写表单
vibium screenshot -o page.png # 截图
vibium pdf -o page.pdf # 导出 PDF
vibium eval "document.title" # 执行 JS
vibium wait text "Success" # 等待文本出现
适用场景#
- AI Agent 浏览器技能扩展
- 端到端 Web 测试自动化
- Web 数据采集与页面存档
- 表单自动填写
- 作为 MCP 服务器嵌入 AI 编程工具
能力边界#
- 支持:页面导航、语义化元素定位、表单填写、点击交互、截图(含元素标注)、PDF 导出、JS 执行、会话录制与回放、页面元素映射与差异对比
- 不支持(基于当前材料推断):非 Chrome 浏览器自动化、分布式集群执行、移动端浏览器控制
路线图愿景#
- Act(Vibium):当前已实现 — 浏览器自动化 via BiDi
- Think(Cortex):计划中 — SQLite-backed 记忆/导航规划层
- Sense(Retina):计划中 — Chrome 扩展,被动记录所有浏览器活动
项目概况#
- 当前版本:26.3.18(共 10 个 release)
- 主要语言:Go (38.7%)、JavaScript (21.4%)、Python (17.8%)、TypeScript (11.4%)、Java (9.6%)
- 支持平台:Linux x64、macOS x64 & arm64、Windows x64
- 开发活跃度:416 次提交,26 个 open issues,13 个 open pull requests
- 采用 Apache 2.0 许可证