这是一篇极简的具身智能全链路图示，自底向上的剖析

正如开头所说，本文更多地是为初学者提供对整条链路的抽象，给出一张“知识地图”，很多具体环节的实现细节并没有深入介绍。最后，汇总一下各个层级所涉及到的岗位。传感器：常见岗位包括传感器工程师、硬件工程师、电子工程师、嵌入式工程师、标定工程师、测试工程师等。他们主要负责相机、深度相机、LiDAR、IMU、编码器、力/力矩传感器、触觉传感器等硬件的选型、集成、驱动、同步、标定和可靠性测试。这个方向更靠近硬

Tom Hardy

379人浏览 · 2026-05-15 17:50:06

Tom Hardy · 2026-05-15 17:50:06 发布

机器人是一个系统性的工程，想要掌握全链路的知识无疑是困难的，但对整条链路拥有一个“抽象”的认知是容易做到且重要的——抽象是很重要的能力，你可以不知道某一个环节具体的技术细节（要是知道肯定更好），但你应该对这个环节在做什么，它的输入输出是什么有一个基本的认知，无论你处于这条链路中的哪一环，了解这些都是有益的。

此外，我相信这篇文章也可以帮助新手更快地入门具身智能，找到自己的研究方向，不至于看着浩如烟海的资料而不知如何下手。正如前面所说，当你对整条链路有基本的了解之后，你也可以更快地找到你所需要的资料。

笔者主要研究的是具身大脑部分（即图中“策略层”），对数据最为敏感，因此笔者根据具身智能中数据的流动绘制了下面这张图。接下来我会按照这张图的顺序，自底向上地介绍各个链路。

原文链接：这是一篇极简的具身智能全链路图示，自底向上的剖析

我们第一时间在具身智能之心星球内进行了分享，希望更多同学可以受益，也欢迎加入和我们一起交流～

话不多说，我们开始吧。

按照这张图，整个系统可以被理解为一条从真实世界到机器人执行、再回到真实世界的数据闭环。严格来说，“环境数据”和“本体数据”并不是系统中的某一层，而是系统要感知、建模和作用的两个对象：前者描述机器人外部世界，后者描述机器人自身状态。传感器把这两类对象转化为原始观测；感知算法把原始观测进一步转化为策略层更容易使用的状态、语义或空间表征；策略层根据这些信息和任务目标生成动作数据；控制器把动作数据转成更底层的控制信号；控制信号驱动机器人运动；机器人运动又改变环境和自身状态，形成下一轮数据。

环境数据与本体数据：系统面对的对象

环境数据指机器人外部世界的状态信息，包括物体的类别、位置、姿态、材质、可操作性、场景布局、光照、遮挡、人的指令以及任务上下文等。

本体数据指机器人自身的状态信息，包括关节角、关节速度、末端执行器位姿、夹爪开合程度、力矩、电流、温度、电池状态、接触状态以及底盘速度等。它回答的是“机器人自己现在在哪里、身体姿态如何、执行器是否受力、是否已经接触到目标”。

传感器：把真实世界转成观测

传感器层的定义是：把环境和本体这两个对象转化为机器可以读取的观测信号。它并不直接“理解”世界，而是提供原始或半结构化的数据入口。

常见环境传感器包括 RGB 相机、RGB-D 相机、双目相机、LiDAR、麦克风、触觉传感器和力传感器等。

本体传感器包括编码器、IMU、电流传感器、力矩传感器、关节位置传感器等。

环境数据与本体数据是真实世界中存在的数据，但是能否被机器人系统利用、怎么被利用，则要看传感器的能力。也是在这里，数据开始进入机器人系统，我们也只能使用在这一层之后的数据（环境中存在≠系统可以使用）。

比如，得到深度观测并不只是“装个摄像头”这么简单。单目 RGB 相机直接得到的是二维图像，本身并不直接测量距离；通过学习方法或几何线索可以估计 relative depth，也就是哪里更近、哪里更远，但绝对尺度通常不稳定。双目相机通过两个相机之间的视差估计深度；如果相机内参、外参和基线已知，并且匹配足够可靠，就可以恢复带物理尺度的 metric depth（即绝对深度）。深度相机通常通过结构光、ToF 或主动双目等方式直接测距，近距离操作里很常用，但也会受到测量范围、阳光干扰、黑色/透明/高反光材质、深度空洞和分辨率的限制。

触觉和力觉也类似。视觉可以告诉机器人物体大概在哪里，但很多操作只有接触后才知道真实状态：夹爪是否真的夹住了杯子，物体有没有滑动，插孔是否对齐，抽屉是否被卡住，柔性物体受力后发生了怎样的形变。这些信息需要力/力矩传感器、触觉阵列、电流反馈或者关节力矩估计来补充。对装配、插拔、擦拭、开门、拧瓶盖这类接触丰富的任务来说，触觉和力觉往往不是锦上添花，而是闭环控制的必要环节。

本体传感器同样是必要的，关节编码器、IMU、力矩/电流反馈等传感器提供 proprioception，也就是机器人对自身状态的观测。很多 VLA 或 imitation learning 系统都会把图像、语言指令和本体状态一起作为输入，原因就在这里：同一张图像下，机器人自身姿态不同，下一步应该执行的动作可能完全不同。

传感器层主要关注的是硬件能采到什么、采得准不准、频率够不够、延迟大不大、是否稳定，以及不同传感器之间是否容易同步和标定。很多上层策略看起来像是模型能力不足，实际问题可能出在传感器：视角被遮挡、深度有空洞、触觉缺失、关节状态延迟，都会让后续模块收到错误或不完整的观测。

在进入策略层/感知算法处理之前，还要解决多传感器融合和时空对齐问题。不同相机、关节状态和力传感器的采样频率不同，如果时间戳对不齐，系统看到的可能是“过去的图像”和“现在的关节状态”混在一起。空间上也需要相机内参、相机之间的外参、相机到机器人基座的手眼标定；没有这些标定，图像中的物体位置就无法稳定转换到机器人坐标系。

由于传感器都有噪声和延迟，真实系统通常还需要低通滤波、Kalman filter、particle filter 或多传感器融合来获得更稳定的状态。

感知算法：把观测变成可用表征

传感器给出的只是原始观测，而感知算法负责把这些观测进一步加工成策略层更容易使用的表征。

最基础的一类感知算法是几何感知。它们的目标是从图像、深度图或 LiDAR 点云中估计空间结构、相机/机器人位姿以及环境地图。需要注意的是，深度图只是从某一个视角看到的距离图，把它通过相机内参反投影后可以得到点云，但这个点云仍然只是可见表面的局部采样。要得到更完整的三维结构，通常需要多视角观测、相机位姿估计、点云配准、SLAM 或三维重建。

这一部分可以参考知乎文章 SLAM技术综述：https://zhuanlan.zhihu.com/p/501102444

另一类是语义感知。目标检测、语义分割、实例分割、关键点检测、开放词汇检测、视觉语言 grounding 等方法，负责把像素或点云和“杯子”“把手”“红色积木”“可以抓取的位置”这样的语义概念关联起来。对于具身智能来说，纯几何信息通常不够，因为机器人不仅要知道某个点在哪里，还要知道它是什么、能不能抓、和任务指令有什么关系。

还有一类是操作相关的状态估计。比如物体 6D 位姿估计、手眼标定、机器人末端位姿估计、接触状态估计、抓取姿态估计、可供性预测、物体运动跟踪等。这些算法更贴近机器人执行，因为策略层往往需要知道的不只是“图里有一个杯子”，而是“杯子在机器人坐标系下的位置和姿态是什么”“哪里可以抓”“当前是否已经接触到目标”。

在端到端 VLA 系统中，感知算法的边界会变得模糊（这也是为什么图中感知算法部分是虚线）。传统机器人系统常常显式输出目标框、点云、位姿、地图或可抓取点；而 VLA 模型可能直接把图像、本体状态和语言指令等信息输入模型，让模型内部自己学习感知表征。

如果想系统补感知算法，Stanford CS231A 是很好的入口，尤其适合理解相机模型、标定、双目、深度、光流、三维重建和 6D 位姿等内容。

Stanford CS231A: https://web.stanford.edu/class/cs231a/

策略层：从感知到动作意图

具身大脑往往指的是图中策略层的部分，它的作用是根据当前输入信息，决定机器人接下来应该做什么，并输出动作数据（注意这里输出的往往是末端执行器位姿或者机器人关节角）。

它的输入可以是原始图像、语言指令、本体状态和历史动作，也可以是感知算法输出的目标框、点云、位姿、地图、可抓取点或多模态特征；输出则是动作数据，可以是关节动作、末端位姿、轨迹片段、动作 token 或更抽象的技能调用。

早期策略层常常是任务专用的，例如抓取检测模型、视觉伺服策略、移动导航策略或单任务强化学习策略。随着 VLA 的发展，策略层开始向 generalist policy 演化：同一个模型希望能够理解多种语言指令、处理不同场景、完成多类操作任务，并在一定程度上跨物体、跨场景泛化。

策略层的路线很多，从传统控制到强化学习控制、行为克隆，再到近些年热门的 VLA，以及近期社区中呼声更高的 WAM，种类繁多。

最早也最稳定的一类路线是传统控制和规划。人先根据任务写出明确的状态表示、目标函数和控制规则，例如路径规划、轨迹优化、视觉伺服、抓取检测、MPC、阻抗控制等。这类方法的优点是可解释、稳定、实时性好，在工业机器人、移动机器人和接触控制里仍然非常重要。但它也有一个明显问题：系统能做什么，很大程度上取决于人提前建模了什么。环境稍微开放一点，物体种类、摆放方式、语言指令、接触状态和异常情况变多以后，手写规则和任务专用模块就会迅速膨胀。

强化学习控制试图减少这种手工设计，让机器人通过试错学习策略。它的吸引力在于可以直接优化长期回报，理论上能学到复杂接触、运动协调和错误恢复，而不必把每一个动作规则都写死。很多 locomotion、抓取、灵巧手和单任务操作工作都受益于 RL。但真实机器人上的 RL 成本很高：试错慢、容易损坏硬件、安全边界难处理，奖励函数也很难为开放任务手工设计。因此 RL 在机器人里很重要，但长期以来更多出现在仿真、单任务、或者有强工程约束的场景中。

行为克隆则换了一个思路：既然真实试错昂贵，那就直接从人类示范或机器人示范中学习“看到这种状态时应该怎么做”。ACT、Diffusion Policy、flow policy 等方法都可以放在这个脉络下理解。它们降低了奖励设计和在线试错的压力，也更容易扩展到真实机器人数据。但纯模仿也有局限：数据里没有覆盖到的状态，模型就容易失控；一旦执行中偏离示范分布，错误会不断累积；而且每个任务都收集高质量示范，成本依然很高。

VLA 的出现，本质上是把机器人策略接到大规模视觉语言模型的能力上。传统 imitation learning 往往只学“图像到动作”，而 VLA 希望同时理解视觉、语言和动作：用户可以用自然语言指定任务，模型可以利用 VLM 里已有的语义知识，并通过大规模机器人数据学习动作输出。这样做的动机很清楚：如果机器人要从封闭单任务走向开放多任务，就不能只靠每个任务单独写规则或单独训练策略，而需要一个能理解开放词汇、跨物体泛化、跨场景迁移的 generalist policy。

但 VLA 也不是终点。很多 VLA 是从当前观测和语言指令直接生成动作，它的优势是推理快、部署相对简单，但弱点是对物理动态和未来后果的建模可能不足。比如一个动作会让物体滑走、碰倒、被遮挡，或者当前看似合理的抓取会在几步之后失败，这些都需要模型理解未来状态。

WAM，也就是 World-Action Model，正是从这个问题出发。它的核心想法是：机器人不应该只根据当前画面立刻出动作，而应该显式或隐式地建模未来世界变化，再根据这些未来变化决定动作。早期或典型的 WAM 往往借助视频生成模型预测未来观测，再通过逆动力学或动作生成模块得到动作；近期也出现了 Fast-WAM、Latent WAM 这类更强调效率的路线，不一定在推理时真的生成完整未来视频，而是把未来动态压进 latent 表征里。WAM 的优势在于引入了更强的时空动态先验，尤其适合讨论泛化、扰动鲁棒性、长程任务和物理交互；代价是训练和推理通常更重，像素级未来预测也不一定等价于正确动作决策。

目前 VLA 和 WAM 正在走向融合，对于未来技术的发展，这也是社区中热衷讨论的话题。如果想要未来投身这部分的研究/工作的话，我建议直接从较新的文献综述/论文看起，并尽快着手去复现1-2个经典项目（如PI0.5）。策略层是研究的热点，上限高，但技术的迭代速度也特别快（论文根本看不完），会很卷。

策略层可以从几个代表性的论文/项目切入：如StarVLA 仓库，PI 的 π0.5 论文/仓库，Nvidia的 DreamZero 论文等。

StarVLA: https://starvla.github.io/
π0.5: https://github.com/Physical-Intelligence/openpi
DreamZero: https://dreamzero0.github.io/

动作数据：策略层输出的中间表示

动作数据是策略层输出、控制器输入之间的中间表示。它不是电机最终收到的信号，而是更接近“机器人应该怎样运动”的高层动作描述。

现代 VLA 和机器人策略常用末端执行器的位姿、关节角 + 夹爪开合/灵巧手动作作为动作表示。这些表示对应不同的动作空间：前者在笛卡尔空间里描述“手应该到哪里”，后者在关节空间里描述“每个关节应该转到什么角度”。

此外，很多策略会输出 action chunk，也就是一次生成未来一小段动作序列，而不是一步一步只输出单个动作。原因是机器人动作具有强时序连续性，单步预测容易抖动，也难以表达一个完整技能。

末端执行器的位姿，指的是机器人真正和外界交互的部分在空间中的位置和姿态。对于机械臂来说，末端执行器通常是夹爪、或者灵巧手的参考坐标系。一个常见的末端位姿可以写成 6D pose：三维位置 (x, y, z) 加三维朝向。朝向可以用欧拉角、旋转矩阵、四元数或者轴角来表示（目前的主流是欧拉角、四元数）。

关节角，指的是机器人每个可运动关节的位置。关节角的每一维对应一个关节的旋转角度。这种表示更接近机器人本体结构，不需要先把末端目标转换成关节目标，但它和具体机器人强绑定：不同机器人自由度不同、关节排列不同、限位不同，同一个关节角向量很难直接迁移到另一种本体上。

末端位姿和关节角各有优缺点。末端位姿更直观，也更接近许多操作任务的语义，因为抓取、放置、推拉通常关心的是手在物体附近的位置和姿态。但末端位姿不能直接驱动电机，后面还需要逆运动学或者控制器把它转换成关节运动；而且同一个末端位姿可能对应多个关节构型，也可能因为关节限位、碰撞或奇异位形而不可达。关节角则更贴近硬件执行，控制链路更直接，控制精度更高。但它不够任务语义化，也更依赖具体机器人形态（所以不太好泛化）。

如果想进一步理解动作表示和 action chunk，可以看 Open X-Embodiment 中对机器人动作格式的说明，以及 LeRobot 的 ACT 文档。前者适合看跨机器人数据集如何统一动作空间，后者适合看 action chunk 在模仿学习中的具体用法。

Open X-Embodiment: https://robotics-transformer-x.github.io/
LeRobot ACT: https://huggingface.co/docs/lerobot/act

控制器：把动作数据变成控制信号

控制器的作用是把策略层给出的动作数据转化为机器人硬件可以稳定执行的低层控制目标。它处在学习策略和物理执行之间，是保证动作安全、平滑、可控的重要环节。

这里没有一个完全统一的方法，可以把所有动作表示直接转换成所有硬件的控制信号。

原因很简单：不同机器人本体、执行器和控制接口差异很大。一个工业机械臂可能接受关节位置或末端位姿命令，底层伺服驱动器内部已经帮你完成电流环、速度环和位置环；一个力矩可控机械臂可能允许你直接发送关节力矩；一个移动底盘可能接受线速度/角速度，再由底盘控制器分配到左右轮或四个轮子；一个灵巧手可能要同时控制十几个手指关节的位置、速度或力矩；液压机器人甚至可能控制阀开度和压力。

因此，工程上更常见的是分层转换，而不是一步到位。

一个典型链路是：策略层输出末端位姿、关节角或 action chunk；轨迹生成模块把离散动作变成连续参考轨迹；运动学模块把末端空间目标转换成关节空间目标；动力学或反馈控制模块根据误差、速度、力/力矩反馈计算低层目标。

最后由硬件驱动或厂商控制器把这些目标转换成电机电流、PWM 或总线消息。不同机器人可以共享其中一部分抽象，例如轨迹跟踪、逆运动学、MPC、QP 控制，但最后接到硬件的接口一定会有本体和厂商差异。

目前很多 VLA/WAM 策略的推理频率低于底层控制环频率，因此需要控制器在更高频率下对策略层输出的动作数据进行插值、跟踪和反馈修正，底层驱动器再以更高频率闭合电流环、速度环或位置环。这样既能利用大模型策略的高层决策能力，又能保证硬件运动足够平滑和稳定。

如果想系统学习控制器和控制算法的相关内容，可以参考《机器人学导论》，它对运动学、动力学、轨迹生成、运动规划和控制都有完整讲解。工程上可以参考 ros2_control/ros2_controllers，理解机器人控制器和硬件接口在 ROS 生态里如何组织。

机器人学导论: https://18636251.s21i.faiusr.com/61/ABUIABA9GAAg8LmNugYo94vmxAI.pdf
ros2_controllers: https://control.ros.org/master/doc/ros2_controllers/doc/controllers_index.html

控制信号：驱动硬件的底层命令

控制信号是控制器输出给执行器的底层数据。它不是一种固定格式，而是一组面向具体硬件接口的底层数据。例如某个关节的目标位置、目标速度、目标力矩、目标电流，或者舵机 PWM、CAN 总线消息、液压阀开度等。

控制信号通常是高频、低维、强约束的时间序列。比如一个 7 自由度机械臂的位置控制信号，可以是每个控制周期发送一次的 7 维目标关节角；如果再加上夹爪，就会多出夹爪开合量。力矩控制信号则可能是每个关节一个目标力矩值。不同机器人使用的单位、频率和接口都可能不同：位置可能用弧度或编码器 tick 表示，速度可能用 rad/s 表示，力矩可能用 N·m 表示，通信可能通过 CAN、EtherCAT、串口或厂商 SDK 完成。

控制信号的种类很多，而且强烈依赖底层执行器和控制模式。

位置伺服常见的信号是目标关节角或目标脉冲数；速度伺服接收目标转速或关节速度；力矩控制接收目标力矩；电流控制接收目标电流，因为电机电流和输出力矩通常有直接关系；普通舵机常见的是 PWM 脉宽；夹爪可能接收开合宽度、闭合速度和最大夹持力；移动底盘可能接收线速度/角速度，也可能接收每个轮子的目标转速；液压或气动系统还可能接收阀门开度、压力或流量相关命令。

机器人：动作落到物理世界

机器人是整个链路的执行主体，也是数据闭环的起点和终点。它接收控制信号，产生真实运动，改变环境状态和自身状态，然后新的环境数据与本体数据又被传感器采集回来。

不同机器人本体会显著影响上层算法。机械臂、双臂机器人、人形机器人、移动底盘、四足机器人、灵巧手，它们的自由度、动作空间、传感器布局、控制频率、安全约束和接触特性都不同。因此，具身智能里的“智能”并不是完全脱离身体存在的；策略能做什么，很大程度上受本体能力约束。

仿真环境中也是类似逻辑，只不过真实机器人和真实环境被替换成了仿真软件中的机器人模型和物理环境。常见仿真平台包括 MuJoCo、Isaac Sim、PyBullet、Gazebo、Habitat、Genesis 等。仿真可以低成本、大规模地产生数据，也可以安全地做失败尝试和强化学习训练。但仿真并不等于真实世界，接触、摩擦、柔性物体、传感器噪声、执行器延迟和材质反光都可能和真机存在差距，这就是常说的 sim-to-real gap。

无论是真机还是仿真，动作最终必须落到一个本体(embodiment)上，而这个本体有自己的自由度、动力学、传感器、执行器、延迟和安全边界。具身智能之所以叫“具身”，正是因为智能必须通过这样的身体在环境中行动。

机器人的设计往往涉及力学、机械、控制、电子、嵌入式和软件系统等多个专业，这一部分同样是许多具身公司都在参与竞争的方向。目前很多具身公司会设计自己的机器人本体，并不只是为了造一个外壳，而是为了让硬件能力、数据采集方式、控制接口和上层模型训练形成闭环。一个机器人能否稳定地产生数据，能否以足够低的延迟执行动作，能否覆盖目标任务所需的动作空间，都会反过来影响策略层能学到什么。

设计机器人首先要从任务需求出发，而不是从外形出发。要先回答：机器人要在哪个场景工作，是桌面操作、仓储搬运、家庭服务、工业装配，还是户外巡检？它需要搬多重的物体，操作范围多大，精度要求多高，是否需要移动，是否需要双臂协作，是否要和人近距离共处？这些需求会决定机器人的尺寸、负载、速度、自由度、末端执行器和安全标准。

第二步是选择本体形态和自由度。固定机械臂适合结构化工位，移动底盘加机械臂适合更大范围的移动操作，双臂机器人适合需要协作、支撑或双手配合的任务，人形机器人则更强调在人类环境中的通用适配。自由度越多，机器人越灵活，但机械设计、控制、标定、数据采集和学习难度也会增加。过少的自由度会限制任务能力，过多的自由度则会带来冗余控制和安全约束问题。

第三步是设计执行器和传动系统。机器人关节可以使用伺服电机、无刷电机、直驱电机、谐波减速器、行星减速器、丝杠、同步带、液压或气动系统等。不同方案的力矩密度、响应速度、背驱性、成本、重量、发热和维护难度都不同。例如工业机械臂常重视高精度和高刚性，协作机器人更重视安全和力控能力，灵巧手则要在很小空间里放入多个轻量执行器。执行器设计会直接决定机器人能不能平滑控制、能不能承受接触、能不能长时间运行。

第四步是设计传感器和布线。机器人不仅需要外部感知传感器，比如头部相机、腕部相机、深度相机、LiDAR、麦克风，也需要本体传感器，比如编码器、IMU、力/力矩传感器、电流反馈、温度传感器和触觉传感器。传感器安装位置会影响数据质量：腕部相机更接近操作对象，但容易被遮挡；第三视角相机视野更稳定，但和末端之间需要更精确的标定。线缆、供电、散热和电磁干扰也不是细节问题，它们会影响系统可靠性。

第五步是设计控制接口和安全边界。一个面向学习的机器人，最好给上层策略提供清晰、稳定的动作接口，比如末端位姿控制、关节位置控制、关节速度控制或力矩控制。如果接口过于封闭，学习算法很难发挥；如果接口开放到过低层，又会增加安全风险。因此实际系统通常会在底层保留限位、急停、碰撞检测、速度/力矩限制、温度保护和故障恢复机制。对具身智能来说，好的机器人本体不仅要“能动”，还要“可控、可观测、可复现、可批量采集数据”。

最后还要通过仿真、样机和真机测试不断迭代。仿真可以提前验证运动范围、碰撞、动力学和控制策略；样机可以暴露真实硬件中的装配误差、刚度不足、散热、线缆磨损和传感器噪声；真机长期运行则会暴露可靠性和维护问题。机器人设计不是一次性画完 CAD 就结束，而是围绕任务、控制、数据和硬件可靠性不断折中。

如果想系统了解机器人本体设计，可以参考 MIT OpenCourseWare 的 Introduction to Robotics，覆盖机器人机构、动力学、控制、执行器、传感器和嵌入式软件

MIT OCW: https://ocw.mit.edu/courses/2-12-introduction-to-robotics-fall-2005/

如果想了解仿真环境，可以参考 Isaac Sim 和 MuJoCo 的官方文档。它们都是很常用的仿真环境。

Isaac Sim Docs: https://docs.isaacsim.omniverse.nvidia.com/5.0.0/overview/overview.html
MuJoCo Docs: https://mujoco.readthedocs.io/

写在最后

正如开头所说，本文更多地是为初学者提供对整条链路的抽象，给出一张“知识地图”，很多具体环节的实现细节并没有深入介绍。

最后，汇总一下各个层级所涉及到的岗位。

传感器：常见岗位包括传感器工程师、硬件工程师、电子工程师、嵌入式工程师、标定工程师、测试工程师等。他们主要负责相机、深度相机、LiDAR、IMU、编码器、力/力矩传感器、触觉传感器等硬件的选型、集成、驱动、同步、标定和可靠性测试。这个方向更靠近硬件和系统集成，需要理解传感器原理、通信接口、时间同步、噪声特性和真实部署中的稳定性问题。

感知算法：常见岗位包括计算机视觉算法工程师、三维视觉算法工程师、点云算法工程师、SLAM/定位建图工程师、多传感器融合工程师、标定算法工程师等。他们主要负责把传感器采集到的图像、深度、点云和本体状态转成可用表征，例如目标检测、语义/实例分割、关键点检测、深度估计、点云配准、物体 6D 位姿估计、视觉里程计、SLAM、手眼标定和状态估计等。这个方向通常需要较强的计算机视觉、几何、优化和工程实现能力。

策略层：常见岗位包括机器人学习算法工程师、强化学习算法工程师、模仿学习算法工程师、多模态大模型算法工程师、机器人基础模型研究员等。他们主要负责从观测、语言指令和历史上下文中生成动作数据，研究行为克隆、Diffusion Policy、ACT、flow policy、VLA、WAM、离线/在线 RL 等方法。这个方向是当前具身智能研究最热的部分，要求同时理解机器学习、大模型、多模态建模和机器人任务。

数据工程：常见岗位包括机器人数据工程师、数据平台工程师、数据标注/质检工程师、遥操作系统工程师、数据采集工程师、仿真数据工程师等。他们主要负责采集、清洗、存储、回放和管理机器人轨迹数据，包括图像、语言指令、本体状态、动作序列、任务结果、失败轨迹和人类干预数据等。对于 VLA/WAM 来说，数据质量往往直接决定模型上限，因此这一层虽然不总是被称为“算法岗”，但非常关键。

控制器：常见岗位包括机器人控制算法工程师、运动控制工程师、轨迹规划工程师、动力学工程师、全身控制工程师、力控/阻抗控制工程师等。他们主要负责把策略输出的末端位姿、关节角或 action chunk 转换成稳定、平滑、满足约束的可执行运动，涉及逆运动学、轨迹生成、MPC、QP 控制、阻抗控制、导纳控制、力控和 whole-body control 等。这个方向更强调机器人运动学、动力学、优化和实时控制。

控制信号与底层驱动：常见岗位包括嵌入式软件工程师、电机控制工程师、伺服驱动工程师、实时系统工程师、机器人中间件工程师、硬件接口工程师等。他们主要负责把控制器输出的目标位置、速度、力矩、电流、PWM 或总线消息稳定发送到执行器，并处理 CAN、EtherCAT、串口、厂商 SDK、实时调度、安全限幅、急停和故障检测等问题。这个方向更靠近底层系统，要求对实时性、可靠性和硬件接口非常敏感。

机器人本体：常见岗位包括机械工程师、结构工程师、机器人系统工程师、机电一体化工程师、执行器工程师、末端执行器工程师、整机测试工程师、可靠性工程师等。他们主要负责机器人形态设计、自由度设计、传动系统、执行器、结构强度、散热、布线、装配、维护和整机可靠性。对于具身智能公司来说，本体能力决定了模型能采到什么数据、能执行什么动作、能不能长期稳定运行。

仿真与系统平台：常见岗位包括仿真工程师、sim-to-real 工程师、机器人系统工程师、ROS/中间件工程师、基础设施工程师、MLOps/训练平台工程师等。他们主要负责仿真环境搭建、资产建模、物理参数调试、自动化评测、数据回放、模型部署、机器人集群管理和训练-部署闭环。这个方向连接算法和工程落地，很多时候决定一个团队能不能高效率迭代。

当然，真实公司里的岗位边界不会像上面分得这么整齐。小团队里一个人可能同时负责感知、控制和系统集成；大团队里每一项又会继续细分。对初学者来说，更重要的是先理解自己更靠近哪一层：是硬件和本体、感知和几何、学习策略、控制与动力学，还是系统工程和数据平台。明确自己所在的位置之后，再沿着这条链路补齐上下游知识，会比一开始试图什么都学更有效。