小鸡毛的具身智能VLA入门自学路线
我在有一些C语言、git、linux、ROS的基本使用基础,SLAM方面的理论基础,了解部分传感器使用的情况下,大概花了300小时左右完成了对下列内容的学习来入门具身智能VLA领域。赵世钰老师的《强化学习中的数学原理》课程,再去学习PPO, GRPO, SAC等常见算法,学习方法同上,先通过AI定性了解,再回到原论文学习即可。比较古早的开源模型,适合快速上手复现微调来了解VLA到底在干嘛,不过不建
文章目录
个人背景参考
我在有一些C语言、git、linux、ROS的基本使用基础,SLAM方面的理论基础,了解部分传感器使用的情况下,大概花了300小时左右完成了对下列内容的学习来入门具身智能VLA领域
基础知识
1. Python语言
想快速过一遍上手的话,我是直接看了一遍菜鸟教程(runoob.com); 要是时间足够,想详细学一遍的话可以看MIT6.0001
2. 深度学习入门
花两三天快速过一遍鱼书就好,一定一口气看完以免遗忘后前后衔接出问题。网上普遍说跟着敲一遍,我认为完全没必要,了解基本原理即可,后续自己做项目读写代码一样能做到提升。
3. PyTorch框架
时间充裕的话可以听听小土堆的课,想快速入门可以省去这一步,用到PyTorch的时候现场问AI也是没问题的,问几次用几次也熟悉了。
4. Transformer架构
先去网络上搜索关于QKV在NLP中提出的背景和含义进行了解,再去听“炮哥带你学”的相关课程,时间充足的话可以额外跟炮哥做一遍ViT。
理论进阶
1. 生成模型
Flow Matching and Diffusion Models, 6.S184
2. 模仿学习
ACT, Diffusion Policy,先通过AI进行定性了解,再去原论文学习即可
3. 强化学习
赵世钰老师的《强化学习中的数学原理》课程,再去学习PPO, GRPO, SAC等常见算法,学习方法同上,先通过AI定性了解,再回到原论文学习即可
4. 大模型基础
时间充裕的话上LLM: cs336;想快速入门找到实习再慢慢学习的话可以看看飞天闪客、3b1b等科普博主了解流程即可。
VLM: 先学习CLIP,后续读论文遇到什么再临时学习新的架构即可。
入门VLA
1. OpenVLA
比较古早的开源模型,适合快速上手复现微调来了解VLA到底在干嘛,不过不建议花大量时间进行学习,重心推荐放在Pi上,其在未来使用的频率会高得多
2. Pi系列
Pi系列的所有文章和代码都推荐大家详细阅读学习,重点可以按照顺序学习0,0.5,*0.6
完成项目
我个人做过的会逐一记录在博客供大家参考,这里就不详细展开了
算法题
这一项一定不要开始太早,因为我们平时很难用上相关知识,到后面是会遗忘的。
如果有相关基础,我觉得顺手做做hot100,会基本的CNN,MLP,MHA就够用了;
如果和我一样零基础的话,可以先看《算法图解》这本书来形象理解各种概念,再上代码随想录或者labuladong的速成算法网站,最后再来hot100和CNN,MLP,MHA等。不过找具身初创的话,其实手撕考的不多,不准备直接面也是OK的
一些个人想法(后续更新)
更多推荐




所有评论(0)