“数字革命的重要性远超过文字或印刷术的发明。” ——道格拉斯·恩格尔巴特,计算机鼠标的发明者

随着人工智能的高速演进,大语言模型早已不再局限于“对话”。尤其是像 GPT-4o、Claude 3 这样的多模态模型,不仅能看图、理解界面,还具备出色的推理和执行能力。这让人不禁想问:既然它们已经能写代码、解题目、生成图像,那有没有可能——让它们像人一样使用电脑?比如,看着屏幕自己点按钮、输入文字、拖动文件……完成数据处理、文档编辑、软件设置等一系列真实任务。

这不仅意味着彻底解放双手,更可能是对传统人机交互方式的一次重构。它也为办公自动化、残障辅助、软件测试等场景打开了新的想象空间。Agent S,就是在这样的设想下诞生的。

图片

图片

1. 介绍

研究背景与动机

  • 历史回顾:以计算机鼠标发明者Douglas Engelbart的名言开篇,强调数字革命的重要性。传统上,鼠标等交互设备由人类直接操控,但自主GUI代理的提出挑战了这一范式,旨在通过自动化多步骤任务(如数据录入、文档处理)提升效率与可访问性,尤其为残障人士提供新可能。

  • 技术基础:多模态大语言模型(MLLMs,如GPT-4o、Claude)的进展为GUI代理的开发奠定了基础,使其能够通过键盘/鼠标直接操作系统界面。

核心挑战

  • 领域知识获取:软件生态多样且快速迭代,要求代理具备动态学习开放世界经验的能力。

  • 长任务规划:复杂任务需分解为有序子任务并跟踪进度。

  • 动态界面处理:非标准化GUI元素的高效识别与交互,需应对大规模视觉信息与动作空间。

解决方案——Agent S 框架

图片

这张图展示了 Agent S 的整体框架。可以看到,Agent S 通过闭环集成三种主要策略来解决复杂的基于GUI的操作系统控制任务:经验增强的层次规划记忆的构建与更新、以及 Agent-Computer 接口(ACI),后者用于在GUI上进行精确的感知和操作。

  • 经验增强的层次规划:使 Agent S 能够将复杂任务拆解为可管理的子任务,从而在高层规划和低层执行过程中,能够同时从外部的网络经验和内部的特定任务经验中获益。

  • 记忆的构建与更新:通过持续存储和检索自我评估的任务经验,Agent S 能够随着时间的推移不断提高其性能,并能够适应开放世界桌面环境中的变化。

  • Agent-Computer 接口(ACI):提供增强视觉的可访问性树观测,涵盖所有有效的GUI元素,确保代理的动作受到有效约束,并限制在有效的离散动作空间内,从而确保操作的精准性。

这三项策略的紧密集成使得 Agent S 能够高效执行复杂的 GUI 任务。

2. 经验增强的层次规划

“MANAGER: 融合外部知识与内部经验”

  • 输入:用户指令(如“删除邮件账户”)和环境观测(可访问性树+屏幕截图)。

  • 查询生成:LLM 将指令转化为结构化查询(如“如何删除邮箱账号?”)。

  • 双路径检索

    1. 外部知识:通过 Perplexica 搜索引擎获取最新应用操作指南(如微软官方文档)。

    2. 内部经验:从叙事记忆检索相似任务的高层策略(如“备份邮件→进入设置→删除账户”)。

  • 知识融合:LLM 整合检索结果,生成可执行的子任务序列(如进入邮箱设置, 定位账户列表, 执行删除)

“WORKER: 从子任务经验和轨迹反思中学习”

  • 情境记忆:存储成功子任务的详细操作轨迹(如“点击坐标(x,y)删除账户”)。

  • 轨迹反思:实时监控子任务执行,提供改进建议(如“检测到弹窗,需先关闭提示”)。

  • 动作生成:基于检索经验和实时反馈生成原子动作(如 click(element_id, 1, left))。

“SELF-EVALUATOR: 自我评估的闭环学习”

  • 文本奖励生成:将成功任务总结为策略摘要(如“通过备份恢复数据比直接删除更安全”),存入叙事记忆。

  • 增量学习:仅存储关键决策节点而非完整轨迹,减少冗余数据。

3. 记忆的构建与更新

通过自监督探索进行初始记忆构建

为了初始化叙事记忆和情景记忆 ,AGENT S 对一组合成生成的任务进行自监督探索。作者利用两种方法创建两种类型的随机探索任务:环境独立任务和环境感知任务

  • 对于环境独立任务,作者利用任务生成器从 OSWorld 和 WindowsAgentArena 中使用的各种应用程序生成最常见的前50个任务。

  • 对于环境感知任务,作者取 OSWorld 和 WindowsAgentArena 中任务的初始环境,并提示任务生成器根据环境生成不同的任务。

这两种类型的任务都构成探索任务。然后在这些任务上运行 AGENT S,仅使用网络知识 ,并收集完整的任务和子任务经验用于叙事和情景记忆。通过这个过程,初始记忆被构建。

持续的记忆更新

在 AGENT S 与新的任务互动的过程中,它会持续更新叙事记忆情景记忆。因此,即使在初始探索完成后,代理仍然会在遇到和尝试更新、更新颖的任务时继续学习。这个过程使我们的代理能够在推理过程中学习,并有效地将学到的知识应用到新任务中。

4. Agent-Computer接口

在当前的桌面环境中,设计主要针对两种用户类型:

  1. 人类用户,他们能够实时感知和响应细微的视觉变化。

  2. 软件程序,它们通过脚本和 API 执行预定义的任务。

然而,这些接口不足以满足在键盘-鼠标级别上进行 GUI 控制和操作的 MLLM 代理的需求。这些代理采用不同的操作范式:它们以缓慢的离散时间间隔响应,缺乏内部坐标系统,并且在每次微小的鼠标移动或键盘输入后无法有效处理细粒度的反馈。

为了弥合 MLLM 代理在 GUI 控制方面的独特操作约束与开放式 GUI 控制任务需求之间的差距,作者借鉴了为软件工程代理开发的 Agent-Computer Interface,提出了一种新颖的 ACI 设计。

  • 双模态输入

    • 视觉输入:捕获动态元素(如弹窗、按钮状态),帮助代理实时理解环境变化。

    • 增强可访问性树:通过叠加 OCR 文本识别结果,确保元素定位的鲁棒性(例如,通过“保存”文本匹配按钮 ID),从而提高元素识别的准确性。

  • 动作空间约束

    • 离散动作集:限定为 click(), type(), hotkey() 等原子操作,避免复杂的组合动作,简化动作选择过程。

    • 单步反馈机制:每个动作后立即获取环境响应,加速试错学习,确保代理能够及时调整其行为。

通过这种设计,ACI 使得 MLLM 代理能够在 GUI 控制任务中更精确地操作计算机,同时保持高效性和安全性。

5. 实验

结果

表 1 为各方法在OSWorld上的准确率;图 5 则是一个在Thunderbird任务上的成功案例。

图片

消融实验

表 2 是经验增强的层次规划在OSWorld上的实验;图 6 和 7 则是 ACI 和 记忆更新机制在OSWorld上的实验。

图片

错误分析

表 3 是 AGENT S 在 OSWorld 上未能完成的错误率的统计数据。

图片


内容来源: IF 实验室 

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐