发现 AI 代理的未来

Vibium

收录于 2026年4月25日
智能体与应用工具
开源
MCPGoAI代理浏览器自动化CLI智能体与应用工具开发者工具/代码自动化/工作流/RPA协议/API/集成

基于 WebDriver BiDi 协议的 AI 原生浏览器自动化工具,以单一轻量二进制文件同时赋能 AI Agent(如 Claude Code、Gemini CLI)与人类开发者完成 Web 交互、测试与数据采集。

定位#

Vibium 是一款 AI 原生浏览器自动化工具,基于 WebDriver BiDi 标准协议构建,解决传统工具依赖 CSS 选择器、环境配置繁琐、缺乏 AI Agent 原生集成等问题。

核心特性#

  • AI 原生集成:可作为 Agent Skill 安装到 Claude Code、Codex、Gemini 等 AI agent,也可作为 MCP Server 运行
  • 语义化元素定位:通过可见文本、表单 label、placeholder、ARIA role 等语义方式查找元素,无需 CSS 选择器
  • 页面映射(Map)vibium map 将页面交互元素映射为 @e1@e2 等引用,vibium diff map 查看变化
  • 零配置:一条命令安装,自动下载 Chrome 浏览器,默认可见模式运行
  • 轻量级:单一约 10MB 二进制文件,无运行时依赖
  • 异步/同步双 API:JS/TS、Python、Java 客户端库均提供 async 和 sync 两套 API
  • 捕获与录制:截图(含元素标注)、PDF 导出、JavaScript 执行、会话录制与回放

架构设计#

┌──────────────────────────────────────┐
│             LLM / Agent              │
│  (Claude Code, Codex, Gemini, etc.)  │
└──────────────────────────────────────┘
       ▲ CLI (Bash)    ▲ MCP (stdio)
       ▼                ▼
┌───────────────────────────────────┐
│          Vibium binary            │
│  ┌──────────────┐ ┌────────────┐  │
│  │ CLI Commands │ │ MCP Server │  │
│  └──────┬───────┘ └──────┬─────┘  │
│         └───────▲─────────┘        │
│          ┌─────▼───────┐          │  BiDi  ┌──────────────┐
│          │  BiDi Proxy │◄────────►│ Chrome Browser │
│          └─────────────┘          │        └──────────────┘
└───────────────────────────────────┘
          ▲
          │ WebSocket BiDi :9515
          ▼
┌──────────────────────────────────────┐
│          Client Libraries            │
│       (js/ts | python | java)        │
│  ┌─────────────────┐ ┌────────────┐  │
│  │   Async API     │ │  Sync API  │  │
│  └─────────────────┘ └────────────┘  │
└──────────────────────────────────────┘

核心二进制使用 Go 语言编写,内嵌 CLI 与 MCP Server 两大入口。BiDi Proxy 作为中间代理层桥接上层指令与底层 Chrome 浏览器,通信基于 WebDriver BiDi(WebSocket,默认端口 9515)。客户端库通过 WebSocket BiDi 连接 Vibium 二进制而非直接连接浏览器。

安装与使用#

CLI / Agent Skill

npm install -g vibium
npx skills add https://github.com/VibiumDev/vibium --skill vibe-check

MCP Server

claude mcp add vibium -- npx -y vibium mcp
gemini mcp add vibium npx -y vibium mcp

语言客户端

npm install vibium     # JavaScript/TypeScript
pip install vibium     # Python

Java (Gradle): implementation 'com.vibium:vibium:26.3.18'

CLI 核心命令

vibium go https://example.com        # 导航
vibium map                             # 映射交互元素
vibium click @e1                       # 点击
vibium diff map                        # 查看变化
vibium find text "Sign In"            # 语义查找
vibium fill @e2 "hello@example.com"   # 填写表单
vibium screenshot -o page.png         # 截图
vibium pdf -o page.pdf                # 导出 PDF
vibium eval "document.title"          # 执行 JS
vibium wait text "Success"            # 等待文本出现

适用场景#

  • AI Agent 浏览器技能扩展
  • 端到端 Web 测试自动化
  • Web 数据采集与页面存档
  • 表单自动填写
  • 作为 MCP 服务器嵌入 AI 编程工具

能力边界#

  • 支持:页面导航、语义化元素定位、表单填写、点击交互、截图(含元素标注)、PDF 导出、JS 执行、会话录制与回放、页面元素映射与差异对比
  • 不支持(基于当前材料推断):非 Chrome 浏览器自动化、分布式集群执行、移动端浏览器控制

路线图愿景#

  • Act(Vibium):当前已实现 — 浏览器自动化 via BiDi
  • Think(Cortex):计划中 — SQLite-backed 记忆/导航规划层
  • Sense(Retina):计划中 — Chrome 扩展,被动记录所有浏览器活动

项目概况#

  • 当前版本:26.3.18(共 10 个 release)
  • 主要语言:Go (38.7%)、JavaScript (21.4%)、Python (17.8%)、TypeScript (11.4%)、Java (9.6%)
  • 支持平台:Linux x64、macOS x64 & arm64、Windows x64
  • 开发活跃度:416 次提交,26 个 open issues,13 个 open pull requests
  • 采用 Apache 2.0 许可证

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。