快速入门学习具身智能决策大模型增强深度强化学习Carla实战项目

本社区交流是为了帮助大家快速入门大模型增强强化学习应用,以实战项目为驱动进行学习,并设立有学习交流社区群,购买后即可加入,一起探讨科研问题。

先说一下,下单前可以尽情了解清楚是否适合自己(包括能否跑carla,具体的效果,想学习的内容,学习目的等等),仔细看博客的介绍和交流清楚问题。下单后不给予退款处理!!!,如果下单进群后还想以自己不适合用等借口要求退款的,请滚开不要浪费各自的时间。社区群是用来学习交流的,不是来和那些奇葩拉扯的。

社区提供的服务:

1.答疑工程运行环境搭建,协助跑起来代码
2.算法实战经验交流,包括改bug,调参经验等
3.论文idea交流,可以交流一些创新点想法,但是注意,这不不会帮你改代码和确保你发论文,只是交流想法,启发也很重要。

与其他项目相比,加入社区的几大优势:

1.结合作者们丰富的实战经验,帮助小白快速入门自动驾驶深度强化学习实战,而不是只停留在强化学习基础理论(理论视频很多,但是缺乏具体场景的carla仿真软件实战应用)。
2.可拓展性,比如本项目可以自行扩展到多个模态,可以在拓展方面给学生提供一定帮助。
3.会不断完善项目,不定期与学员交流,让小白学会看bug改bug,快速提供实战经验。
4.很多付费课程只有一年期限,本学习社区无期限,直到学员不再接触此行业。
5.代码可读性较强,好移植,节省大量代码开发时间。
6.有配套的详细文档,协助更好地入门。
7.可以作为端到端实战项目写到简历中。

硬件需求:
单智能体,因为涉及多个版本的carla,最高版本是0.9.13,所以一般跑0.9.13不卡就行。我跑过的最低的电脑配置为:
显卡:GTX 1050 Ti
内存:8.00 GB
显存:至少16G,看batchszie和大模型的类型
当然,越高级越无敌。
我想说的是,win跑Carla的训练可能有卡退现象,除非配置真的很好,所以一般都是在服务器跑完训练传到win本地跑一下测试可视化效果,介意这一点的可以不购买。

软件需求
win: 显卡要适应python3.7,最好不要比3.7高,因为0.9.8的carla的win只适应python3.7。如果你的显卡只能适应python3.8,那也可以将carla版本改为0.9.13,不过代码需要改一些api配置。
如果你的carla版本比0.9.13高,那么python至少得python3.9及以上。

ubuntu:python3.7和python3.8都可以跑0.9.8的carla。python3.9及以上理论上也可以跑,但是还没测试过,主要是要适配carla版本。

关于carla版本和python版本的适配说明,购买厚可以看文档介绍,主要是carla场景搭建的api问题,因为不同carla版本,api不一样。算法和代码逻辑是保持不变的。

工程内容解释:
整体工作就是,用“冻结”的大模型推理的动作,引导增强rl的策略学习,引导的方式包括直接加约束,和退火权重约束。大模型推理动作的时候,输入是图像和自己设计的prompt。场景包括高速动态避障和鬼探头。

经过测试,大模型可以推理出“action=[0.0,1.0]”这样的动作值,我们就可以解析出来当成Carla车辆的动作。

因为普遍大模型在具有很多自动驾驶相关的数据进了训练,大模型也可以识别出图片是Carla的场景,所以对于Carla这种自动驾驶场景,大模型可能可以推理出比未收敛的强化学习更好用的策略(强化学习一开始是随机策略),来加速强化学习的学习。当然,大模型推理的效果越好,强化学习增强越明显。这个工程只是个研究的demo。

购买须知:
1.ubuntu版本没有要求,只要能跑conda环境就行,carla版本最高最好用0.9.13,因为高版本更吃显卡,0.9.8可以满足基本场景搭建需求了。但是win的无法使用python3.8及以上的版本来跑carla0.9.8版本,ubuntu服务器可以。另外,python版本是跟carla版本挂钩的,只要会改carla场景的api以及改carla版本没有什么bug,所有版本的carla和python理论上都可以用,因为算法和代码逻辑跟版本无关。但是,博主只测试过carla0.9.8和0.9.13两个版本,在python3.8可以跑出效果。其他版本还没测试,所以购买前要自己确认一下版本问题,实在不行就按照博主测试通过的组合。
2.carla可以多版本存在,内存够用就行,不用很死板地认为一个系统只能用一个carla,不知道怎么多版本存在可以学一下。
3.关于如果搭建工程的场景,大家可以再进一步购买我们之前的单智能体套餐,老学员可以优惠。现在的工程有两个场景,高速动态避障和鬼探头。
4.视频讲解主要是对学生疑惑的代码逻辑点进行讲解,原理网上太多好教程不想重复。凡是有代码不理解的,都可以交流。视频讲解会不断完善更新,一开始看不懂先别急,先跟着readme搭环境跑起来代码先。
5.每个人具体的需求想法不一样,但是,实战学习,必须学习前人的经验代码,然后在基础上再去改为自己的想法代码,而不是一来就凭空想着如何实现自己的想法。
6.这边不是系统课程,而是围绕工程代码进行实战,有比较详细的文档,有学习交流群。不是强化学习的系统课程!如果代码有疑问都可以答疑。
7.模仿学习的话没有提供工程,但是博主对carla leaderboard框架比较熟悉,也可以交流学习。
8.有些指标我们可能没写,比如转角变化率等等,所以这个只能学员自己学习使用carla,然后自己加,加到tensorboard上去显示即可。
9.python代码不难看懂,要静下心来学习。
10.环境的搭建安装是详细文档的形式,因为我发现对于小白来说,录视频不如不断完善文档,因为有些人跟着视频操作也会有问题。
11.硬件配置很重要,因为涉及大模型,Qwen2-VL-2B也得16G显存才够跑代码。
12.目前涉及的大模型都是VLM,因为用的图像比较直接,LLM还得总结环境的文本描述,感觉很难操作。
13.目前VLM是冻结的,还没考虑微调,大家可以自己添加微调的内容。
14.类似的思想可以推广到其他具身智能平台。

请购买前仔细阅读一下这个工程介绍,没问题就可以加入社区学习

期望:
1.集思广益,为大家提供一个科研和工程的学习交流平台。
2.如果需要一对一全程答疑完成毕设或投稿,需要另外谈价。
3.自主开发的工程具备计算机软件著作权和代码版权,禁止转让和倒卖。

下单后,进群学习+项目代码+代码答疑+科研交流+相互进步(如果是毕设需求一对一指导,需要二次付费)。具体的内容如下:

大模型+强化学习Carla实战应用与科研探讨套餐内容如下:

1.强化学习算法SAC

2.场景包括:
高速公路随机动态车辆
行人鬼探头场景

3.大模型包括:
Qwen2.5-VL-3B-Instruct
Qwen2-VL-2B-Instruct
Qwen2-VL-7B-Instruct
llava-1.5-7b-hf

4.目前的大模型增强强化学习的baselines:
1.VLM推理动作,直接引导RL策略学习
2.VLM推理动作,权重退火引导RL策略学习

在这里插入图片描述

在这里插入图片描述

更多的演示效果视频可以在b站个人主页查看:
https://space.bilibili.com/300556577?spm_id_from=333.1387.follow.user_card.click

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐