叠甲:因为懒所以这里省略很多叠甲的话 反正你要说我 我就说我在这里叠过甲了=)

背景:研二下学期 每天可以学习的时间在8-12个小时左右(说的是可以奥 没说真学的时间)

具有一些基本神经网络知识 但主要集中于RBF神经网络解决回归问题 处于只会用 基本没想过为什么的阶段O.o 本科自动化专业但没有学习机器人类内容 python学习过但基本上全部忘光了 数学成绩很不好 但是本质上不抗拒数学只是看不懂那么多公式记不住那么多证明

核心诉求:找工作

开始时间:2026.4.6

一、前期准备

技术要求:目前觉得需要三个最主要的知识储备:1.深度学习 2.强化学习、模仿学习 3.编程能力(感觉python是刚需,还有Mysql什么的都要学,基本上和程序猿要求一样,八股也要会)

信息平台

1.小红书:主要是经验贴多 对某个公司的要求或者面试经历等信息真的至关重要 也对你前期耳濡目染专有名词 制定自己的学习计划有帮助

2.哔哩哔哩:学习平台,里面的高质量课程多,甚至有专门对课程评分(从夯到拉)的简短视频

https://www.bilibili.com/video/BV1rmnEzREay

能帮你极大的节省自己去试错的成本

3.Github:大部分代码上面全有 目前我也没整太明白到底怎么用 整会了会更新的...

4.boss直聘:点对点的去学习内容 不仅让你查漏补缺 捕捉最近招聘市场人才动向 还能在你耗费精力学完技能后对照要求 提升自信心和满足感 有助于长期学习

5.特殊:电子书资源和八股准备 毕竟你搞这个和计算机本身分不开关系 这里推荐两个大佬

拓跋阿秀和小林coding

这两位大佬写的东西很具有参考价值 比我强多了 也是本人考虑记录学习路线的动机之一 不敢多评价这二位大佬 只能说夯爆了

加分项:仿真经验 实操经验 高分论文 

下面是需要提前准备的东西(有什么不会的 中途出的问题问ai基本上都能解决问题):

操作系统(本人采用双系统策略):ubuntu22.04 参考教程:https://www.bilibili.com/video/BV1Cc41127B9/(再次强调 不懂就问ai 至于为什么要ubuntu 好像是刚需中的刚需)

IDE:    Visual Studio Code 版本:1.115.0

学习思路

1.首先去boss直聘上寻找公司招聘要求 对症学习

一般来说都是些机器人公司 发现不管他是几个轮子几条手臂的机器人 核心的招聘要求就是一个:

在人类发出指令后 让机器干活

这里的指令大部分指的是语音、文字等 干的活基本上就是由大脑(深度学习)分析需求后 通过小脑(强化学习、模仿学习)控制机器人或机械臂安安稳稳的 不像帕金森式(没有不尊重的意思)的完成目标 并能够重复的 健壮的完成这种任务

下面附带几张北京地区公司对具身智能算法工程师的要求:(红色为大脑 蓝色为小脑)

融合:

偏实践、运动控制类:

目前没有看到纯招大脑类的 原因是(个人猜测)目前的技术发展主要还是依靠大模型技术的发展,这方面只要求你会用就行 没指望你研究一个惊世骇俗的技术出来 还处于观望阶段

另附一个搜索时看到的有些有趣的招聘:

二、简单了解

b站搜索具身智能 找几个综述、科普类的总视频看 本人的观点是 视频首先得能让我看得下去 我才会仔细看 所以选的视频都是内容不枯燥 不会满天飞数学公式(很头疼)的那种 

这里推荐几个视频 都是本人亲自看过觉得有意思之余又能学到一点的视频:

https://www.bilibili.com/video/BV1CLCzBoEXU/(具身智能两条路线)

https://www.bilibili.com/video/BV11LPWzNEkm/(其中之一世界模型的发展由于本人目前不考虑学世界模型细节 因此只看了一个大概 知道怎么回事即可)

对于完全没有基础概念的同学(数学不太懂 不知道什么是人工智能 编程语言也不太会)推荐以下几个视频:

https://www.bilibili.com/video/BV1Ys411k7yQ(3blue1brown的线代视频 我主要学到的是看待线代的看法 会对你之后的大模型学习的直觉上有很大的帮助)

https://www.bilibili.com/video/BV1NCgVzoEG9/(从一点都不懂到 人工智能—机器学习—深度学习—transformer架构 的由表及里保姆式讲解 只需要留概念 细节后面再学 最后的大模型100词 会让你对这个行业的一些基本术语留个概念 有些技术视频讲解会直接用缩写或者专有名词讲 你再出去搜会很影响状态 推荐看这个视频的时候做笔记)

https://www.bilibili.com/video/BV1cD4y1H7Tk(专攻python+深度学习的编程教学 一箭双雕)

以及推荐一本书:                      《深度学习入门:基于Python的理论与实现》

又称鱼书(封面画了鱼)是我到目前为止阅读过的 写的最好最好的技术类书籍 内容非常直白直观 又不缺乏技术细节的填充 非常推荐去看 看完这本书基本上对 深度学习会有个很不错的基础 也对python编程有了基础了解 非常推荐大家在看上述的几个视频之余看 对这几个内容的融会贯通大有裨益

目前本人就学到了这个阶段 另外在此间购买了lerobot-arm-100机械臂 想着整个项目什么的给简历加分 然后目前就卡在代码这么多我实在是看不懂 有点无从下手的阶段 


目前的想法是 学习transformer的实现 参考视频https://www.bilibili.com/video/BV1ej1EBWEWu/

顺便学习一下强化学习的内容 目前还没有选到合适的课程和书籍 正在做攻略 要是各位大佬有推荐的话请及时留言 我不胜感激

短期计划是 在本地跑smolVla 控制机械臂抓方块

长期计划是 租云服务器 复现pi系列模型 然后看看locomotion的东西争取有个基本了解

这是总的学习路线 后面会考虑按照学习路线 模块化的详细讲解每部分的核心知识点和实践经验等 方便自己记录错误 复习巩固 也希望能帮助到正在阅读本文的你 (初步计划尽量做到一周一板块的更新)


tips:这是本人的第一次写博客记录学习过程 目前的想法是持续更新 直到找到了实习或者工作 为终点 希望各位大佬和小白积极留言 一起进步学习 帮助更多的人了解和上手具身智能方向!!!

三、深入学习

暂缓总结任务 目前准备自己急头白脸先整点东西出来 等整出来了再开始总结 要不太耗费时间精力

按照我的学习路线 这周会总结具身智能两大技术路线的技术细节 每一部分我都会再开一个专栏来试图用简单直白的语言总结我对这部分内容的理解(主观理解 还望大家批评指正) 以下是暂定的更新内容:
1.VLA与世界模型
2.深度学习篇:从向量机到卷积神经网络

如果内容中附带电子书籍或开源代码 大家懒得手动查找 我会在个人的github上更新相关资源 (目前还没有开始)

更多的内容 我自己学完会往上面增添 敬请期待=)

四、更新日志

2026.4.17更:

确定强化学习参考书本为                 《深度学习入门4:强化学习》

原来鱼书是丛书 作者已经写到了4 强化学习 基于对系列第一本书的认可 决定选择此书作为强化学习的入门书籍 计划在3-4天内阅读完这本书 另:这本书的实战运用方面没有涉及到近期较为火爆的PPO算法等 算是一大遗憾 需要单独学习 等看完这本书后 我会及时更新PPO算法的学习路径


2026.4.24更:


这一周里主要是进行了一些规划和部署购买 现在将结果总结如下:

4.18日 和具身智能行业内的 做视觉的大佬进行了简单的交流

  1. 据他说 近期他们公司在对VLA进行的任务训练就是训练其折叠衣物(这个目前学习到这我觉得很难 对视觉模型和动作输出的需求很高很高) 成功率才30% 所以自己的项目往这方面靠会好点
  2. 大佬公司内目前招收实习生的标准:

    首先是项目上的匹配 否则实习经历再多也没有太大竞争力(大佬给我看了一个国科大同学投的简历 简历上从24年就开始有项目一直到现在 基本上2-3个月就会做一个新的项目或者实习 看得我很震惊)

    其次就是找来能干活 对于就算大学学习方向和这方面很相符的同学 如果一点仿真这方面的基础的话 从零开始培养的话 一定是不要的 相对应的 就算专业不符 但是有这方面的经验的会优先考虑 进而延伸到 如果真的要找这方面的工作 这方面的实习是一定一定一定所需要的(大佬多次强调)!!

  3. 最近已经发展出VA模型技术路线了 看展示的图片主要是
  • 输入数据:进一步的拓展了输入数据的维度 从单视角(第三人称)-双视角(添加腕部)-末端数据(加关节力矩加触觉)         
  • 时序 :单帧静态-Trans fuser with kv chche
  • 动作预测:CNN+DDPM-DiT+Flowmatchin

还有就是补充一个关键词:ISR Information-Standaedized Resampling

4.19-4.21 正常学习强化学习书籍

多刷b站关于具身智能和机器人的视频 大数据会给你推相关的视频 增长领域常识和前沿模型等(发展太快了 不只是大模型发展快 一会kimi的残差连接 一会gpt的生成图片 今天(4.24)又出来了deepseekv4 VLA也快 pi系列都到0.7了)

进行了一些学习:

  • Transformer---炮哥带你学
  • Vit---炮哥带你学(购入课件与代码 本地运行 跑一半崩了 遂不了了之)
  • 残差连接的发展等等大模型的常识(占大头)---飞天闪客等

4.22-4.24 实践演练(更新新文章)

                              

                             

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐