阿里巴巴通义实验室推出的pc-agent框架,旨在解决复杂pc任务自动化难题。该框架能够跨越不同应用程序,完成从office到浏览器的各种复杂工作流。
PC-Agent并非简单的指令执行器,它能够理解并执行一系列复杂指令,例如:在记事本中读取文件信息并设置闹钟;在文件管理器中查找文件,并将信息添加到其他应用;搜索股票信息并将其记录到Excel表格;读取邮件信息并预订机票;以及编辑Word文档格式等。
现有方法如UFO和Agent-S在处理复杂PC任务时存在局限性,主要体现在对文本的精细感知和操作能力不足,以及忽略了子任务间的复杂依赖关系。PC-Agent通过以下两项关键技术创新来克服这些挑战:
1. 主动感知模块(APM): APM能够精细感知屏幕内容并进行操作。它结合了可访问性树(accessibility tree)和基于多模态大模型(MLLM)的意图理解模块,实现对可交互元素和文本信息的精准定位和操作。
2. 层次化多智能体协作: PC-Agent采用三层架构:指令层、子任务层和动作层。指令层由Manager智能体负责将复杂指令分解为子任务;子任务层由Progress智能体跟踪和管理子任务进度;动作层由Decision智能体负责决策和执行操作,Reflection智能体负责反馈和纠错。这种层次化结构能够有效处理子任务间的依赖关系,并实现精确的进度感知和错误反馈。
为了评估PC-Agent的性能,研究人员构建了一个名为PC-Eval的复杂指令集,包含25条涉及8个常用PC应用程序的指令。实验结果表明,PC-Agent在复杂任务上的表现显著优于现有方法,能够有效处理精细化操作和长程决策。
下图展示了PC-Agent执行部分
任务的示例,包括搜索信息并编辑Excel表格、Reflection智能体发现并反馈无效操作,以及在Word文档中进行格式编辑等。
论文链接:https://www./link/4148dbfefe2cef3f36b4866a1485e1ec
代码链接:https://www./link/b10acef62a5c13b2ffa3494fe5a2dab5
文章推荐更多>
- 1手机uc浏览器怎么导出缓存的视频
- 2c盘红了怎么清理 c盘爆红紧急清理的4个步骤
- 3夸克上怎么找资源 夸克平台资源查找方法
- 4苹果UC缓存视频转存云端
- 5mysql怎么使用表
- 6oracle怎么查看存储过程执行到哪个位置了数据
- 7夸克怎么转存115 115资源转存方法分享
- 8oracle数据库如何创建表
- 9IDAPro脚本编写:批量分析PE文件
- 10wordpress怎么导出导入网站文件
- 11phpmyadmin账号密码是什么
- 12安卓手机UC视频导出电脑
- 13oracle数据库如何备份数据库
- 14dedecms怎么换网站图片
- 15oracle数据库怎么卸载干净
- 16wordpress网站导航栏如何添加导航菜单栏
- 17怎么上传wordpress到虚拟主机
- 18wordpress如何设置密码
- 19oracle数据库如何卸载干净
- 20oracle存储过程执行计划怎么看
- 21装系统c盘要留多大 系统盘容量规划的4个考量
- 22华为手机UC缓存视频导出步骤
- 23mysql数据库怎么使用创建的账号和密码
- 24oracle数据库怎么备份数据
- 25帮别人制作wordpress赚钱吗
- 26uc浏览器密码管理在哪里 uc密码保存与查看位置详解
- 27wordpress怎么改后台密码
- 28电脑死机怎么办 电脑死机应急处理方案
- 29oracle数据库的实例名在哪看
- 30oracle数据监听怎么启动
