?，豆包电脑，基于pyautogui+vlm实现的视觉agent代理。并且完全开源!

《豆包电脑：基于PyAutoGUI+VLM的开源视觉Agent代理》介绍了一款跨平台视觉自动化工具。该项目是对thenextagent的重构版本，通过PyAutoGUI实现系统兼容性，结合VLM模型和RAG知识库系统（内置抖音、快手优化）完成复杂任务。用户只需配置API密钥即可让Agent自主执行多步操作，如"打开抖音给指定视频点赞"。目前PC端已开源（GitHub地址见正文）

xhr0p

967人浏览 · 2025-12-31 00:30:28

xhr0p · 2025-12-31 00:30:28 发布

?，豆包电脑，基于pyautogui+vlm实现的视觉agent代理。并且完全开源!

由于豆包手机大火，就有意开发一个类似的套件，目前设定这个代理应该三端通行，目前安卓端还在开发中，先来发布一个pc端。我把 https://github.com/qingningLime/thenextagent的代码进行完整重构，目前几乎是完整的重构，只是用了工具定义。由于不好截图，文章末尾有视频。

开源地址

希望大家多提一些issue和多点一下star
开源地址https://github.com/keyxh/PcAutoAgent

这个项目能干什么

它可以像一个人一样去解决问题，但是由于VL模型为了保证速度，通常没有通用模型不够聪明，因此我们引入知识库系统(RAG)，在定义里，我们测试性的在RAG里加入了抖音和快手，发现效果很好，对于抖音，可以自行的把一个复杂任务完成，例如，例如我需要打开抖音给船长d的第一个视频点一个赞，模型会自主打开浏览器–>找到抖音网页版–>搜索船长d，在搜索结果里选择用户，找到第一个视频进行点赞。
不过这个应用适合嵌入到另一个应用当中去使用，

项目说明

本项目是对 thenextagent 的重构版本，几乎将原有的代码完全重构，但模型定义层还是参考上面的项目，在原有功能基础上进行了大幅扩展和优化，支持更多应用场景和更智能的操作体验。
我们采用了pyautogui，这种操作方式支持所有系统，能力有限目前仅仅是适配了几款应用，欢迎提issue和star，对类似抖音和快手进行测试型应用级优化（也就是通过rag里写入特殊应用特殊方法）。可以一次执行多步操作，例如打开抖音给船长d的第一个视频点一个赞，会打开浏览器–>找到抖音网页版–>找到用户船长d，给他点赞。