极简、可自我进化的自主 Agent 框架,通过分层记忆与上下文信息密度最大化,赋予任意 LLM 对本地计算机的系统级控制能力。
GenericAgent(曾用名 pc-agent-loop)的核心设计理念是"越用越强"。框架通过 L0–L4 五层记忆体系(Meta Rules → Insight Index → Global Facts → Task Skills → Session Archive)将上下文窗口控制在 30K tokens 以内,相比同类 Agent 的 200K–1M 显著降低幻觉与成本。每次完成新任务后,执行路径自动固化为可复用 Skill,形成个人专属技能树。
框架仅依赖 9 个原子工具(code_run、file_read/write/patch、web_scan、web_execute_js、ask_user 及 2 个记忆管理工具)即可覆盖文件操作、浏览器自动化(保留登录态)、Android 设备控制、屏幕 OCR 等场景。核心 Agent Loop 约 100 行,基于生成器模式实现流式输出,提供 tool_before/after/turn_end 三个回调钩子。
支持 Claude、Gemini、Kimi、MiniMax 及 OpenAI 兼容接口,前端覆盖命令行、Streamlit Web UI、Qt 桌面应用以及微信、QQ、Telegram、飞书、企业微信、钉钉等聊天平台。高级模式包括 Reflect(反射)、Plan(规划)、SubAgent(子代理)、自主探索及计划任务(scheduler cron 集成)。
典型场景包括:浏览器自动化(含登录态操作淘宝、B站等)、移动端 ADB 控制(如支付宝支出追踪)、量化选股(mootdx 集成)、外卖下单、批量消息推送、全局文件搜索(Everything 集成)等。
安装仅需 pip install requests streamlit pywebview,推荐 Python 3.11 或 3.12(不兼容 3.14)。API Key 通过 mykey.py 的变量命名约定自动选择接口格式,Agent 可自主安装剩余依赖。
仓库中所有代码(含 git init 与每条 commit message)均由 GenericAgent 自主生成,构成自举实证。技术报告发表于 arXiv:2604.17091。