?,豆包电脑, 基于pyautogui+vlm实现的视觉agent代理。并且完全开源!
《豆包电脑:基于PyAutoGUI+VLM的开源视觉Agent代理》介绍了一款跨平台视觉自动化工具。该项目是对thenextagent的重构版本,通过PyAutoGUI实现系统兼容性,结合VLM模型和RAG知识库系统(内置抖音、快手优化)完成复杂任务。用户只需配置API密钥即可让Agent自主执行多步操作,如"打开抖音给指定视频点赞"。目前PC端已开源(GitHub地址见正文)
?,豆包电脑, 基于pyautogui+vlm实现的视觉agent代理。并且完全开源!
由于豆包手机大火,就有意开发一个类似的套件,目前设定这个代理应该三端通行,目前安卓端还在开发中,先来发布一个pc端。我把 https://github.com/qingningLime/thenextagent的代码进行完整重构,目前几乎是完整的重构,只是用了工具定义。由于不好截图,文章末尾有视频。
开源地址
希望大家多提一些issue和多点一下star
开源地址https://github.com/keyxh/PcAutoAgent
这个项目能干什么
它可以像一个人一样去解决问题,但是由于VL模型为了保证速度,通常没有通用模型不够聪明,因此我们引入知识库系统(RAG),在定义里,我们测试性的在RAG里加入了抖音和快手,发现效果很好,对于抖音,可以自行的把一个复杂任务完成,例如,例如我需要打开抖音给船长d的第一个视频点一个赞,模型会自主打开浏览器–>找到抖音网页版–>搜索船长d,在搜索结果里选择用户,找到第一个视频进行点赞。
不过这个应用适合嵌入到另一个应用当中去使用,
项目说明
本项目是对 thenextagent 的重构版本,几乎将原有的代码完全重构,但模型定义层还是参考上面的项目,在原有功能基础上进行了大幅扩展和优化,支持更多应用场景和更智能的操作体验。
我们采用了pyautogui,这种操作方式支持所有系统,能力有限目前仅仅是适配了几款应用,欢迎提issue和star,对类似抖音和快手进行测试型应用级优化(也就是通过rag里写入特殊应用特殊方法)。可以一次执行多步操作,例如打开抖音给船长d的第一个视频点一个赞,会打开浏览器–>找到抖音网页版–>找到用户船长d,给他点赞。
它是如何运行的
通过截取电脑屏幕,传入vlm api,这时vlm会下达下一步的指令,模型就能使用正则解析是否有使用到工具定义定义,如果使用到了则执行工具定义的方法。并且自动根据历史内容,调整参数(应对点不准,点错了的情况)。
使用方法
- 配置
model_config.json文件,填入你的API密钥,仓库里的已经修改过了,只是一个样例。 - 运行
python gui.py --task 执行什么任务 - 等待图形界面加载完成,即可自动开始运行(注意最好把cmd窗口关闭)
以下agent实测给央视新闻第一条视频点赞的演示
由于时间有限,以上版本仅开发不到2天。。。因此功能有限(且大部分时间是在编写prompt和测试)下个版本会大幅度提升,后续若项目进展顺利也会开发多agent模式
演示视频
视频里就是演示vlm是如何执行任务的。
https://github.com/keyxh/PcAutoAgent/blob/main/video/1.mp4
更多推荐




所有评论(0)