操作系统智能体调研

操作系统智能体(OS Agents)基于多模态大语言模型(MLLM)，通过操作系统提供的图形用户界面(GUI)和命令行界面(CLI)来自动化操作电脑、手机和浏览器的任务。这个调研项目旨在整合该领域的研究现状，为学术研究和产业发展提供指导。

一分钟了解#

这是一个关于"操作系统智能体(OS Agents)"的学术调研项目，主要关注那些能够通过操作系统界面自动化操作电脑、手机和浏览器的多模态大语言模型智能体。该项目由ACL 2025会议的口头报告论文支撑，适合研究人员、开发者以及对该领域感兴趣的学习者。核心价值：提供一个全面、系统的OS Agents研究概览，帮助快速掌握这一前沿领域的最新进展和发展方向。

快速上手#

安装难度：低 - 本项目是学术调研资源，无需安装，可直接访问获取信息。

适合我的场景吗？

✅ 研究人员：需要了解OS Agents领域的最新研究进展和方法

✅ 开发者：寻找构建操作系统智能体的模型和框架参考

✅ 学生：希望快速了解这个新兴研究领域的基础知识

❌ 寻找可直接使用的应用软件：本项目提供的是调研资源和论文列表，而非成品工具

论文库更新：持续收集和更新OS Agents领域的研究论文，保持信息时效性
学术合作：与OPPO等企业研究团队建立合作，促进学术与产业结合
招聘信息：提供相关研究团队的招聘信息，促进人才流动与研究发展

维护状态#

开发活跃度：持续更新中，定期新增相关研究论文
最近更新：近期持续更新，包含2024年10月发表的最新研究成果
社区响应：通过多平台发布(网站、arXiv、GitHub、知乎、OpenReview、Twitter)，扩大学术影响力

商用与许可#

✅ 学术使用：允许用于学术研究和教育目的
⚠️ 商用限制：项目本身为学术资源，引用论文需遵循各自许可条款
✅ 修改传播：可基于本项目资源进行二次创作和传播

文档与学习资源#

文档质量：学术标准，结构化清晰
官方资源：GitHub仓库、论文预印本
示例代码：项目本身不提供代码，但链接的研究论文可能包含相关实现

操作系统智能体调研

一分钟了解#

快速上手#

核心能力#

1. 研究论文整理 - 知识体系化#

2. 基础模型调研 - 技术发展脉络#

3. 智能体框架分析 - 构建方法汇总#

4. 评估基准介绍 - 性能衡量标准#

技术栈与集成#

生态与扩展#

维护状态#

商用与许可#

文档与学习资源#

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新