个人背景参考

我在有一些C语言、git、linux、ROS的基本使用基础,SLAM方面的理论基础,了解部分传感器使用的情况下,大概花了300小时左右完成了对下列内容的学习来入门具身智能VLA领域

基础知识

1. Python语言

想快速过一遍上手的话,我是直接看了一遍菜鸟教程(runoob.com); 要是时间足够,想详细学一遍的话可以看MIT6.0001

2. 深度学习入门

花两三天快速过一遍鱼书就好,一定一口气看完以免遗忘后前后衔接出问题。网上普遍说跟着敲一遍,我认为完全没必要,了解基本原理即可,后续自己做项目读写代码一样能做到提升。

3. PyTorch框架

时间充裕的话可以听听小土堆的课,想快速入门可以省去这一步,用到PyTorch的时候现场问AI也是没问题的,问几次用几次也熟悉了。

4. Transformer架构

先去网络上搜索关于QKV在NLP中提出的背景和含义进行了解,再去听“炮哥带你学”的相关课程,时间充足的话可以额外跟炮哥做一遍ViT。

理论进阶

1. 生成模型

Flow Matching and Diffusion Models, 6.S184

2. 模仿学习

ACT, Diffusion Policy,先通过AI进行定性了解,再去原论文学习即可

3. 强化学习

赵世钰老师的《强化学习中的数学原理》课程,再去学习PPO, GRPO, SAC等常见算法,学习方法同上,先通过AI定性了解,再回到原论文学习即可

4. 大模型基础

时间充裕的话上LLM: cs336;想快速入门找到实习再慢慢学习的话可以看看飞天闪客、3b1b等科普博主了解流程即可。

VLM: 先学习CLIP,后续读论文遇到什么再临时学习新的架构即可。

入门VLA

1. OpenVLA

比较古早的开源模型,适合快速上手复现微调来了解VLA到底在干嘛,不过不建议花大量时间进行学习,重心推荐放在Pi上,其在未来使用的频率会高得多

2. Pi系列

Pi系列的所有文章和代码都推荐大家详细阅读学习,重点可以按照顺序学习0,0.5,*0.6

完成项目

我个人做过的会逐一记录在博客供大家参考,这里就不详细展开了

算法题

这一项一定不要开始太早,因为我们平时很难用上相关知识,到后面是会遗忘的。

如果有相关基础,我觉得顺手做做hot100,会基本的CNN,MLP,MHA就够用了;

如果和我一样零基础的话,可以先看《算法图解》这本书来形象理解各种概念,再上代码随想录或者labuladong的速成算法网站,最后再来hot100和CNN,MLP,MHA等。不过找具身初创的话,其实手撕考的不多,不准备直接面也是OK的

一些个人想法(后续更新)

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐