AlphaAvatar

基于 LiveKit 构建的可学习、可配置、高度插件化的全能型实时交互虚拟助手框架，支持多模态记忆、用户画像与外部工具集成。

项目概述#

AlphaAvatar 是一个 Apache-2.0 开源项目，旨在构建通用虚拟助手。它是一个基于 Python 的 Agent 框架，核心解决如何将实时音视频交互（LiveKit）、大语言模型推理、长期记忆、用户画像以及虚拟形象有机整合，提供具备「自我进化」能力的数字助手解决方案。

核心价值：降低构建具备长期记忆和个性化交互能力的实时语音/视频 AI Agent 的门槛。

适用场景：

实时语音/视频虚拟陪伴与助手
具备长期记忆的智能客服或教育辅导 Agent
多模态交互研究（语音识别、说话人区分、Live2D 形象驱动）
集成外部知识库（RAG）与网络深度搜索的智能问答系统

核心能力与插件#

项目采用插件化设计，分为 AlphaAvatar 核心插件与工具插件两大类。

AlphaAvatar 核心插件#

插件	状态	能力说明
🧠 Memory	已实现	自我改进的记忆模块，支持 Assistant–User/Assistant–Tools/Assistant's self-memory 的记忆捕获与检索
🧬 Persona	已实现	全自动多模态用户画像，支持语音说话人识别、自动用户画像抽取与实时匹配
😊 Virtual Character	已实现	实时生成的虚拟形象，已集成 AIRI live2d
💡 Reflection	计划中	自我优化器，自动构建内部知识库
🗺️ Planning	计划中	长期规划能力，使 Agent 在更长时间维度上进行可靠有序的行动规划
🤖 Behavior	计划中	行为逻辑控制器

工具插件#

插件	状态	能力说明
🔍 DeepResearch	已实现	网络接入与深度搜索，集成 Tavily API，支持快速检索/深度搜索/网页转PDF
📖 RAG	已实现	文档知识库访问，集成 RAG Anything，支持基于 DeepResearch 插件页面的查询与索引

安装与快速开始#

环境要求#

Python 3.11+
依赖服务：LiveKit Server, OpenAI API Key, Qdrant (云服务或自建), Tavily API Key (可选)

从 PyPI 安装稳定版#

uv venv .my-env --python 3.11
source .my-env/bin/activate
pip install alpha-avatar-agents

从 GitHub 安装最新版#

git clone --recurse-submodules https://github.com/AlphaAvatar/AlphaAvatar.git
cd AlphaAvatar
uv venv .venv --python 3.11
source .venv/bin/activate
uv sync --all-packages

环境变量配置#

export LIVEKIT_API_KEY=<your API Key>
export LIVEKIT_API_SECRET=<your API Secret>
export LIVEKIT_URL=<your LiveKit server URL>
export OPENAI_API_KEY=<your OpenAI API Key>
export QDRANT_URL='https://xxxxxx.us-east.aws.cloud.qdrant.io:6333'
export QDRANT_API_KEY=<your QDRANT API Key>
export TAVILY_API_KEY=<your TAVILY API Key>  # Optional

启动开发模式#

alphaavatar download-files
alphaavatar dev examples/pipline_openai_airi.yaml
# 或
alphaavatar dev examples/pipline_openai_tools.yaml

架构设计#

核心框架：基于 LiveKit Agents 构建实时交互流
模块化设计：avatar-agents (核心 Agent 逻辑与编排) + avatar-plugins (各类功能插件实现)
上下文管理器：核心路由组件，将实时交互数据分发至不同插件模型处理
数据存储：使用 Qdrant 向量数据库存储 Memory 和 Persona 的 Embedding 数据
多模态处理链路：LiveKit 音视频流 → STT → Context Manager (Persona/Memory) → LLM 推理 → Tools (DeepResearch/RAG) → TTS → 音频流 + Live2D 驱动

CLI 命令#

alphaavatar download-files：初始化下载所需资源文件
alphaavatar dev <config_path>：以开发模式启动 Agent，加载指定 YAML 配置文件

版本历史#

时间	版本	关键更新
2026-01	v0.3.1	ADD tool calls during user-Assistant interactions to the Memory module
2026-01	v0.3.0	Support DeepResearch by tavily API
2025-12	v0.2.0	Support AIRI live2d-based virtual character display
2025-11	v0.1.0	Support automatic memory extraction, automatic user persona extraction and matching

项目愿景#

Build a universal assistant capable of recognizing users through multimodal streaming input. It should possess self-memory, autonomous reflection, and iterative self-evolution for real-time interaction. The assistant will seamlessly integrate with mainstream external tools to solve practical problems efficiently.