具身智能 ≈ 李群上的机器学习?

大家好,这里是【深蓝具身智能】。

一直以来,我们都在这里分享具身智能的前沿进展:最新的论文、惊艳的 demo、不断刷新的基准。承蒙大家厚爱,每一份阅读和留言都是我们坚持创作的动力。

与此同时,我们也经常能收到粉丝的留言:新概念好多感觉追也追不完,深蓝有没有可能聊聊那些更底层、更扎实的东西?

我们也深有同感。第一性原理,其实在具身智能的研发里无处不在。再新的方法,也脱胎于那些“老派的”基础。不如一起蹲下来,把这些构成具身智能骨骼的东西,一块一块重新捡起来,用今天的眼光理解一遍。于是,我们推出了——《具身智能基础》这一专栏。

第一篇,我们从 李群代数 聊起。本文约 10000 字,建议先收藏。


目录

01 通俗解释:李群与李代数

李群:三维空间中“合法运动”的集合

李代数:把“弯曲运动”掰平的“计算工具”

02   李群与李代数在具身智能(含自动驾驶)中广泛应用的原因

(一)解决“姿态表示”的核心痛点,避免运动异常

(二)适配深度学习,实现“可微优化”

(三)保证“物理一致性”,适配真实世界场景

03   四元数与李群、李代数的关系

(一)各自定位:三者各司其职,互不替代

(二)核心关联:三者的转换链路

(三)优缺点对比:为什么需要三者协同?

一些基础概念补充

04    大多都能转化为李代数空间的优化问题


我们十年前学机器人的时候,旋转变换可以用欧拉角顶一顶,实在不行上旋转矩阵。SLAM 里用四元数做状态变量,微分的时候小心翼翼加个扰动。反正,用各种 hack 和补丁,一切似乎都过得去。(了解背景的朋友,可以跳过这一部分)

后来,业内开始将深度学习与物理运动深度耦合,问题就集中爆发了。

为什么?

在传统 SLAM、轨迹优化、运动控制里,处理旋转和刚体运动时,我们并不是真的在欧拉角空间里做优化(狭义的形容)

深度学习的介入改变了游戏规则:把原本藏在优化器内部的几何操作,暴露到了网络的前向传播和反向传播中。

当具身智能需要让神经网络输出动作、需要在大范围姿态变化中做优化、需要保证生成的运动轨迹严格物理可行时,绕路就走不大通了。我们必须直面旋转空间的真正结构。

而这个结构,就叫李群。

这也是我们第一篇文章,选择从李群、李代数、四元数开始的原因。

本文不打算停留在概念介绍层面,而是希望通过系统的数学推导,将三者之间的转换关系与工程中(具身智能、自动驾驶)的使用边界一次性讲清楚。

文章中会包含大量公式,但每一个推导都服务于一个具体的问题。

01 通俗解释:李群与李代数

要理解李群与李代数,我们无需上来就陷入复杂的数学定义,只需抓住“描述运动”这一核心。

二者都是用来刻画三维空间中物体“姿态”和“运动”的工具。

区别在于一个描述“真实状态”,一个提供“计算便利”。

李群:三维空间中“合法运动”的集合

李群的核心作用,是描述三维空间中物体的“姿态”和“刚体运动”,我们最常用的就是李群中的两个核心成员:SO(3)和SE(3)。

它们就像两个“运动规则手册”,规定了物体在空间中能做哪些合法运动。

一、SO(3)(三维特殊正交群,Special Orthogonal Group 3)

核心是“纯旋转”,完全不涉及平移,是李群中描述三维空间旋转的核心集合。

从数学定义来看,SO(3)是所有3×3正交矩阵的集合,且每个矩阵的行列式为1,这两个约束条件确保了旋转的合法性:

旋转后物体的形状、大小不变,不会出现扭曲、拉伸等不符合物理规律的情况。

其核心公式(SO(3)定义约束)为:

R \in \mathrm{SO}(3) \iff R^T R = I,\ \det(R) = 1,

同时满足旋转矩阵乘法(姿态叠加)公式:

$R_{AB} = R_{AC} R_{CB}$(A 相对于 B 的旋转 = A 相对于 C 的旋转 × C 相对于 B 的旋转)

SO(3)的核心是描述三维空间的合法纯旋转,核心要求是旋转后物体形状、大小不变,即旋转过程满足正交性右手定则这两个约束公式的推导过程如下:

(1)正交性约束推导:

旋转本质是线性变换,若用矩阵 $R$表示旋转,对于空间中任意向量$\vec{x}$,旋转后向量为$\vec{x}' = R\vec{x}$

由于旋转不改变向量长度,即$\|\vec{x}'\| = \|\vec{x}\|$

根据向量模长公式,$\|\vec{x}'\|^2 = (\vec{x}')^T \vec{x}' = (R\vec{x})^T R\vec{x} = \vec{x}^T R^T R \vec{x}$

又因为$\|\vec{x}\|^2 = \vec{x}^T \vec{x}$,因此$\vec{x}^T R^T R \vec{x} = \vec{x}^T \vec{x}$对任意向量$\vec{x}$成立;

可推出$R^T R = I$$I$$3\times 3$ 单位矩阵),即旋转矩阵为正交矩阵。

(2)行列式约束推导:

正交矩阵的行列式满足 $\det(R^T R) = \det(I) = 1$

$\det(R^T R) = \det(R^T)\cdot\det(R) = [\det(R)]^2$

因此 $[\det(R)]^2 = 1$,即$\det(R) = \pm 1$

由于 $\mathrm{SO}(3)$ 描述的是“右手旋转”(符合物理世界的旋转方向,如顺时针、逆时针旋转),排除 $\det(R) = -1$(对应镜像反射,非真实旋转)

最终得到$\det(R) = 1$

综上,SO(3)的定义约束公式确保了旋转的合法性。

通俗来说,就是物体在原地转圈、翻身、扭头,位置不变,只改变朝向。

比如机器人的头部转动、相机调整拍摄角度,这些都属于SO(3)描述的范畴。

SO(3)本质上是所有合法旋转的集合,每一个旋转姿态(比如转30度、转90度),都是SO(3)这个集合里的一个元素。

它为三维旋转提供了严格的几何规则,是具身智能中姿态表示的基础。

二、SE(3)(三维特殊欧氏群,Special Euclidean Group 3)

核心是“全套刚体运动”,即“旋转+平移”的组合,是 SO(3)的拓展与延伸,也是描述三维空间中刚体运动最全面的李群。

其关键公式(SE(3) 齐次变换矩阵)为:

T \in \mathrm{SE}(3) \iff T = \begin{pmatrix} R & t \\ 0^T & 1 \end{pmatrix},

其中,$R \in \mathrm{SO}(3)$(旋转矩阵),$t \in \mathbb{R}^3$(平移向量),$0^T = [0,0,0]$(3 维零行向量)。

SE(3)是“旋转+平移”的组合,用于描述三维空间中刚体的完整运动,如自动驾驶汽车行驶+转向、机器人手臂移动+调整角度。

该公式的推导过程如下:

(1)刚体运动的原始表达:

空间中任意点$\vec{p}$,经过旋转 $R$和平移 $t$ 后,得到新坐标 $\vec{p}'$,原始关系式为$\vec{p}' = R\vec{p} + t$

但该式为非齐次线性方程,无法直接通过矩阵乘法实现多个运动的叠加(如先旋转平移,再旋转平移),不利于工程计算。

(2)齐次化改造:

为了统一旋转和平移的计算,引入齐次坐标,将 3 维向量 $\vec{p}$ 扩展为 4 维齐次向量$\tilde{p} = \begin{pmatrix} \vec{p} \\ 1 \end{pmatrix}.$

此时,旋转和平移可合并为一个$4\times 4$ 矩阵 $T$,即

T\tilde{p} = \begin{pmatrix} R & t \\ 0^T & 1 \end{pmatrix} \begin{pmatrix} \vec{p} \\ 1 \end{pmatrix} = R\vec{p} + t = \vec{p}'

与原始关系式一致。

(3)合法性约束:

由于 $T$ 中的 $R$必须满足$\mathrm{SO}(3)$ 的约束,即:$R^T R = I,\ \det(R) = 1$

因此$\mathrm{SE}(3)$的核心约束是“旋转矩阵符合 $\mathrm{SO}(3)$,平移向量无额外约束”。

最终形成上述齐次变换矩阵公式,完美覆盖刚体运动的所有情况。

数学定义来看,SE(3)由平移向量和SO(3)旋转矩阵组成

通常用一个4×4的齐次变换矩阵表示,既能体现物体的位置(平移向量),又能体现物体的朝向(旋转矩阵),完美覆盖了三维空间中刚体运动的所有可能情况。

通俗来说,就是物体既改变位置,又改变朝向,这是现实世界中最常见的运动形式。

比如自动驾驶汽车在路上行驶,同时调整车头朝向避让障碍物;

机器人手臂从一个位置移动到另一个位置,同时调整抓取角度。

SE(3)作为具身智能描述智能体状态的核心工具,能完整捕捉智能体的位置+姿态,为后续的感知、规划、控制提供精准的状态基础。

具身智能中的刚体运动,不仅包含旋转,还包含平移。旋转矩阵加上平移向量构成 SE(3),即三维特殊欧几里得群。

它同样是李群,一个六维的流形。

机械臂的末端位姿、无人机的空间位置与姿态、相机的外参……所有这些,都是 SE(3) 中的点。

三、简单总结

李群(SO(3)SE(3))就是真实物理世界中物体运动的合法集合,它规定了智能体的姿态和运动必须遵循的规则,确保运动符合物理规律,不出现不合常理的状态,比如物体旋转后形状扭曲。

李代数:把“弯曲运动”掰平的“计算工具”

李代数是李群的配套工具,对应SO(3)的李代数是so(3),对应SE(3)的李代数是se(3)

我们可以用一个生活化的比喻理解二者的关系:

把李群(SO(3)/SE(3))比作球形地球,地球表面是弯曲的,就像李群中物体的姿态的运动轨迹是非线性的,无法直接用简单的加减、求导来计算;

而李代数(so(3)/se(3))就是平面地图,它把弯曲的球面(李群)摊平成平面(线性空间),让我们可以用简单的数学运算(加减、求导)来处理姿态和运动。

熟悉数学的读者是否想起了,非线性计算的线性化近似呢?

就是类似的思想。

图片

SO(3)SE(3)相对应,李代数也分为两类:so(3)se(3)

一、so(3)是3维向量空间,对应SO(3)的“旋转增量”,比如:

机器人转头的角度变化、相机拍摄方向的微小调整,这些微小的旋转变化,都可以用so(3)这个3维向量来表示。

它本质上是SO(3)在单位元处的切空间,承载着旋转的微小变化量。其核心公式如下:

(1)关键公式1(so(3)定义):

(2)关键公式2(指数映射,so(3)→SO(3)):

简化后为

(3)关键公式3(对数映射,SO(3)→so(3)):

其中\theta = \arccos\left(\frac{\mathrm{tr}(R) - 1}{2}\right)$\mathrm{tr}(R)$为旋转矩阵$R$ 的迹。

so(3)是SO(3)在单位元(单位旋转矩阵I)处的切空间,核心作用是将SO(3)的非线性旋转转化为线性向量$\omega$(旋转增量),方便计算优化。

这些公式的推导过程如下:

(1)so(3)定义推导:

  • $\mathrm{SO}(3)$中的旋转矩阵$R$满足$R^T R = I$,对该式两边关于时间 $t$求导,假设 $R$ 是时间的函数,即 $R(t)$,表示旋转随时间变化;
  • 得到$\dot{R}^T R + R^T \dot{R} = 0$,整理得$R^T \dot{R} = -(R^T \dot{R})^T$,说明$R^T \dot{R}$ 是反对称矩阵(满足$A^T = -A$ );
  • $\omega^{\wedge}(t) = R^T(t)\dot{R}(t)$,则$\omega^{\wedge}(t)$$3\times 3$反对称矩阵,而 3 维反对称矩阵的集合可与 3 维向量 $\omega \in \mathbb{R}^3$ 一一对应;
  • 对应关系即为上述 $\omega^{\wedge}$ 的矩阵形式(称为向量 $\omega$ 的“反对称化”)。
  • 因此 $\mathfrak{so}(3)$ 定义为所有 3 维向量的反对称化集合。

(2)指数映射推导:

指数映射的核心是将线性的 so(3) 向量 $\omega$(旋转增量)转化为非线性的 SO(3) 旋转矩阵 R。

由于$\omega^\wedge$是反对称矩阵,可利用泰勒展开推导指数映射:

  • 首先,计算 $\omega^\wedge$ 的幂次:

后续幂次可循环推导;

  • 然后将幂次代入泰勒展开式,结合三角函数泰勒展开:

其中 $\theta = \|\omega\|$

  • 最后整理可得上述简化公式。

该公式与原始泰勒展开式等价,且更便于工程计算,实现了so(3)到SO(3)的转化,是具身智能中姿态优化的核心链路。

二、se(3)是6维向量空间,对应SE(3)的“运动增量”

包含3个平移增量(前后、左右、上下)和3个旋转增量(绕X、Y、Z轴的转动),比如自动驾驶汽车行驶时的微小位移和方向调整,就可以用se(3)来描述。

它是SE(3)在单位元处的切空间,完整对应刚体运动的微小变化。其核心公式如下:

(1)关键公式1(se(3)定义):

(2)关键公式2(指数映射,se(3)→SE(3)):

这些公式的推导过程如下:

se(3) 是 SE(3) 在单位元(单位齐次矩阵$T_0 = \begin{pmatrix} I & 0 \\ 0^T & 1 \end{pmatrix}$)处的切空间,对应 SE(3) 的“运动增量”(3 个旋转增量 $\omega$+ 3 个平移增量 $v$)。

(1)se(3)定义推导:

类比so (3) 的推导,SE(3) 中的齐次矩阵 $T$ 满足$T^{-1} = \begin{pmatrix} R^T & -R^T t \\ 0^T & 1 \end{pmatrix}$(逆矩阵公式)

$T(t)T^{-1}(t) = I$ 两边关于时间 $t$ 求导,得到

\dot{T}(t)T^{-1}(t) = -T(t)\dot{T}^{-1}(t)

说明$\dot{T}(t)T^{-1}(t)$$4\times 4$ 反对称矩阵(广义反对称矩阵)。

$\xi^{\wedge}(t) = \dot{T}(t)T^{-1}(t)$,则 $\xi^{\wedge}(t)$ 可表示为上述 $4\times 4$矩阵形式。

其中 $\omega^{\wedge}$$3\times 3$反对称矩阵(对应旋转增量),$v \in \mathbb{R}^3$ 对应平移增量。

因此se(3)定义为所有6维向量ξ的广义反对称化集合。

(2)指数映射推导:

se (3)的指数映射是将 6 维线性向量 $\xi$(运动增量)转化为 $4\times 4$ 齐次变换矩阵 $T$

由于$\xi^{\wedge}$ 可拆分为旋转部分和平移部分,结合 so(3) 的指数映射,对 $\exp(\xi^{\wedge})$做泰勒展开,分离旋转和平移项:

旋转部分:$\exp(\omega^{\wedge})$(与so(3)到SO(3)的指数映射一致);

平移部分:通过泰勒展开整理,得到 $Jv$,其中 $J$ 为雅可比矩阵,用于补偿旋转对平移的影响(避免平移计算出现偏差)。

三、简单总结

李代数的核心价值的是“线性化”:

李群中的运动是非线性的(比如旋转不能直接相加),无法直接用于深度学习的梯度下降、反向传播;

而李代数把这种非线性运动转化为线性向量,让智能体的大脑(神经网络)可以轻松计算、优化动作。

这也是李代数能成为具身智能核心工具的关键原因之一。

02   李群与李代数在具身智能(含自动驾驶)中广泛应用的原因

具身智能的核心需求,是让智能体在三维物理世界中精准感知、稳定决策、顺畅执行,而李群与李代数恰好解决了这一过程中的痛点

——既保证运动的物理合理性,又适配深度学习的计算需求。

图片

无论是人形机器人、自动驾驶,还是智能物流设备,只要涉及三维空间中的姿态感知、运动规划、动作控制,都离不开李群与李代数。

具体原因可分为以下三点。

(一)解决“姿态表示”的核心痛点,避免运动异常

在具身智能中,智能体的姿态表示,比如机器人的朝向、自动驾驶汽车的车头方向是基础,而传统的姿态表示方法(欧拉角)存在致命缺陷,比如:

万向锁:当物体绕Y轴旋转90度时,会丢失一个自由度,导致无法完成某些旋转动作。

这在实际应用中会导致智能体动作卡顿、失控,比如自动驾驶汽车避让障碍物时,车头方向无法正常调整。

李群(SO(3)、SE(3))完美解决了这个问题:

SO(3) 描述的旋转没有万向锁,其定义约束公式$R^T R = I, \det(R) = 1$ 能精准表示三维空间中的任意旋转姿态;

SE(3) 则通过齐次变换矩阵$T = \begin{pmatrix} R & t \\ 0^T & 1 \end{pmatrix}$完整表示“位置 + 姿态”,确保智能体的运动符合物理规律。

而李代数(so(3)/se(3))则通过指数映射与对数映射,为姿态的优化提供了可能,让智能体可以快速调整姿态,避免运动异常。

比如在自动驾驶的SLAM(同步定位与地图构建)中,相机和汽车的位姿都用SE(3)表示,确保定位精准,不会出现姿态偏差导致的导航失误。

这也是李群在自动驾驶中最基础的应用场景之一。

(二)适配深度学习,实现“可微优化”

具身智能的核心是“学习能力”——智能体需要通过大量数据训练,优化自己的动作策略(比如机器人学习抓取物体、自动驾驶汽车学习避让行人)

而深度学习的核心是“梯度下降,需要对优化变量进行求导,这就要求优化变量必须是线性的、无约束的。

李群中的姿态:旋转矩阵、变换矩阵,是非线性的、有约束的(比如旋转矩阵必须满足$R^T R = I,\ \det(R) = 1$),无法直接用于梯度下降;

而李代数(so(3)/se(3))是线性向量,无约束,可直接求导、做反向传播,完美适配深度学习的计算需求。

  • 比如在自动驾驶的轨迹优化中:

智能体需要根据路况调整行驶轨迹。轨迹的本质是SE(3)的序列,我们可以通过对数映射将SE(3)转化为se(3),通过梯度下降优化se(3)向量,再通过指数映射转化回SE(3),得到符合物理规律的最优轨迹;

  • 比如在人形机器人的运动控制中:

关节姿态的优化也是通过“李群(姿态表示)→李代数(线性优化)→李群(动作执行)”的链路实现的,确保机器人的动作顺畅、稳定,同时具备自主学习能力。

(三)保证“物理一致性”,适配真实世界场景

具身智能与传统AI的最大区别,是需要“嵌入”真实物理世界,动作必须符合物理规律。

比如机器人抓取物体时,手臂的运动轨迹必须符合刚体运动规则,不能穿透物体;自动驾驶汽车的转向、刹车,必须符合三维空间的运动规律,不能出现“瞬移”“扭曲等不合常理的动作。

李群(SO(3)SE(3))本身就蕴含了刚体运动的几何规则SO(3)的正交性和行列式约束、SE(3)的齐次变换矩阵结构,用李群表示智能体的姿态和运动,能天然保证物理一致性;

而李代数则在不破坏物理规则的前提下,通过指数映射与对数映射实现动作的优化和调整。比如在智能驾驶的位姿图优化中,每个位姿节点用SE(3)表示,相邻位姿的变换约束用SE(3)so(3)表示,通过李代数计算误差和雅可比矩阵,确保优化后的轨迹符合真实物理世界的运动规律,避免出现导航偏差、动作失控等问题。

简单来说,李群与李代数的组合,既让智能体动作符合真实世界规则,又让智能体适配深度学习的优化需求,这也是它们在具身智能(尤其是自动驾驶)中不可或缺的原因。

03   四元数与李群、李代数的关系

在具身智能的实践中,我们经常会听到“四元数或者哈密尔顿四元数这个概念,其实它和李群、李代数一样,都是描述三维旋转的工具

图片

但三者的定位、用途完全不同。大致关系可以概括为:四元数是李群(SO(3))的便捷存储格式,李代数(so(3))是四元数的优化工具”。

三者本质上都是描述三维旋转,又分工不同。

(一)各自定位:三者各司其职,互不替代

首先明确三者的各自定位,避免混淆:

  • 李群SO(3):

是“旋转的集合”,定义了三维旋转的所有合法形式,是旋转的“底层规则”。

其核心约束公式$R^T R = I,\ \det(R) = 1$规定了旋转必须遵守的几何约束,不直接参与计算,只规定旋转必须遵守的几何约束。

  • 四元数:

是李群SO(3)的“表达形式之一”(李群里面最常用、最好用的一种姿态写法),用4个数字(1个实部+3个虚部)表示一个三维旋转,是工程实践中最常用的“姿态存储格式”。

其关键公式(四元数定义)为:

它的优势是无万向锁、计算高效、插值顺滑,而且代码实现简单,广泛应用于机器人、自动驾驶的姿态存储和简单旋转计算。

  • 李代数so(3):

是“旋转增量的线性表示”,用3个数字表示旋转的微小变化,是“优化工具”。

其核心的指数映射和对数映射公式,实现了与SO(3)、四元数的转化,优势是线性、无约束,可直接用于梯度下降、反向传播解决四元数和SO(3)无法直接优化的问题

(二)核心关联:三者的转换链路

在具身智能的实际应用中,三者的转换是高频操作操作路线非常清晰,我们用通俗的流程来描述:

  1. 智能体感知到当前姿态,比如相机拍摄方向、机器人手臂朝向,用四元数存储这个姿态

  2. 当需要优化姿态,比如调整相机角度、修正机器人手臂位置时,先将四元数转化为so(3)(线性向量),在so(3)空间中做梯度下降、误差计算,完成优化;

    四元数转化为so(3)的关键的是:

    (1)先通过公式将四元数转化为SO(3)旋转矩阵R:

     

    (2)再通过so(3)的对数映射$\omega^{\wedge} = \log(R) = \frac{\theta}{2\sin\theta}\left(R - R^T\right)$得到so(3)向量ω。

  3. 优化完成后,将so(3)(旋转增量)转化为四元数,更新智能体的姿态,确保姿态符合SO(3)的规则(合法旋转)。

    这一步需先通过so(3)的指数映射将ω转化为旋转矩阵R,再结合四元数与旋转矩阵的转化公式,得到对应的单位四元数。

  4. 智能体执行动作时,四元数对应的姿态就是SO(3)中的一个合法旋转,保证动作符合物理规律。

从数学角度来说,三者的转换依赖“指数映射”和“对数映射”:

  • so(3)通过指数映射,可以转化为四元数或SO(3)的旋转矩阵;

  • 四元数或SO(3)的旋转矩阵,通过对数映射,可以转化为so(3)向量。

图片

这种映射关系,实现了“线性优化”与“物理合法”的兼顾,也是三者能够协同工作的桥梁。

其中,四元数与SO(3)旋转矩阵的推导核心是“四元数旋转与旋转矩阵旋转的等价性”。

公式如下:

(1)四元数旋转的原始表达:

空间中任意3维向量 $\vec{x}$,用四元数表示为$x = \begin{bmatrix} 0, x_1, x_2, x_3 \end{bmatrix}^T$(纯虚四元数),经过四元数 $q$旋转后,得到新向量对应的四元数$x' = q x q^{-1}$$q^{-1}$$q$的逆,单位四元数的逆满足 $q^{-1} = q^*$)。

(2)转化为矩阵形式:

$x' = q x q^{-1}$ 展开,整理后可表示为$\begin{pmatrix} 0 \\ \vec{x}' \end{pmatrix} = R(q) \begin{pmatrix} 0 \\ \vec{x} \end{pmatrix},$

其中 $R(q)$即为上述 $3 \times 3$ 旋转矩阵,该矩阵满足 $\mathrm{SO}(3)$ 的约束

R^T R = I,\ \det(R) = 1

证明四元数与SO(3)的旋转矩阵等价。

(3)约束条件推导:

由于四元数对应SO(3)的合法旋转,因此必须满足单位化约束

 

若四元数非单位化,旋转后向量长度会发生变化(不符合刚体旋转规则)。

因此工程实践中均使用单位四元数表示姿态,确保与SO(3)的一致性。

(三)优缺点对比:为什么需要三者协同?

单独使用某一种工具,都无法满足具身智能的需求,三者的协同正是为了互补长短:

  • 四元数:

优点是无万向锁、存储高效、插值顺滑,适合姿态存储和简单旋转计算;

缺点是有约束(模长必须为1),无法直接用于深度学习的梯度优化。

四元数可以想象为高阶的复数,但是不存在三元数。

  • so(3)李代数:

优点是线性、无约束,可直接求导、优化,适配深度学习;

缺点是只能表示微小旋转增量,不适合长期存储姿态。

  • SO(3)李群:

优点是定义了旋转的合法规则,保证物理一致性;

缺点是非线性、有约束,无法直接计算和优化。

举个例子:

比如在自动驾驶中,汽车的姿态用四元数存储,避免万向锁和存储冗余;当需要优化行驶轨迹、修正车头方向时,将四元数转化为so(3),通过梯度下降优化旋转增量,再转化回四元数更新姿态,确保姿态符合SO(3)的规则,既保证了计算高效,又保证了物理合理。

一些基础概念补充

  • 万向锁

顺带说明一下,万向锁是传统姿态表示方法,如欧拉角。

理解欧拉角的关键是,不要以为xyz三个自由度会像坐标系一样始终保持两两正交,不是一定两两正交的。

它的致命缺陷,指当物体绕某一轴(通常是中间轴,如欧拉角的 轴)旋转至 90 度时,会丢失一个旋转自由度,导致两个旋转轴重合,无法完成某些特定方向的旋转动作

图片

通俗来说,就像相机或机器人转头时,若先绕 Y 轴转 90 度,再想绕 轴或 轴旋转,会发现两个旋转方向 重合,无法实现预期的转向,出现动作卡顿、失控的情况

—— 这就是万向锁。

图片

图| 陀螺仪表示的三轴并不一定正交的欧拉角

  • 丢失自由度

为了清晰,我们再描述一下丢失自由度,虽然有点冗余。

我们可以把欧拉角的三个旋转轴(比如俯仰 航 滚转想象成相机的三个调节旋钮,正常情况下三个旋钮各司其职,能组合出任意朝向 —— 

比如先调俯仰(抬头低头)、再调偏航(左右转头)、最后调滚转(左右倾斜),三个动作独立,覆盖所有姿态。

图片

但当其中一个旋钮转到特定位置(比如偏航旋钮转 90 度),会发现另外两个旋钮的调节效果完全一样(比如“俯仰和滚转”都变成了 左右倾斜),相当于其中一个旋钮 失效” 

—— 这就是丢失自由度。

04    大多都能转化为李代数空间的优化问题

李群与李代数,是具身智能实现“物理世界适配”与“自主学习”的核心数学工具,它们与四元数协同工作,共同支撑着智能体在三维空间中的稳定运行。

从本质上来说:

  • 李群(SO(3)、SE(3))通过前面提到的等核心公式,定义了智能体运动的“物理规则”,确保动作符合真实世界的刚体运动规律;

  • 李代数(so(3)、se(3))通过指数映射、对数映射等公式,提供了“线性化计算工具”,让智能体能够通过深度学习优化动作策略;

  • 四元数则通过单位化约束和与SO(3)的转化公式,作为“便捷存储格式”,解决了姿态存储和简单旋转计算的需求。

三者一起构成了具身智能姿态表示与运动控制的核心体系。

在具身智能的关键应用场景:

自动驾驶中,李群与李代数的价值尤为突出:它们解决了姿态表示的万向锁问题,通过李代数的线性化特性实现了轨迹优化的可微性,依靠李群的约束规则保证了行驶动作的物理一致性,让自动驾驶汽车能够在复杂路况中精准定位、顺畅避让;

在人形机器人、智能物流等场景中,它们同样发挥着不可替代的作用,让智能体能够灵活调整姿态、优化动作,真正实现“嵌入物理世界、自主完成任务”。

今天你能听到的很多具身智能技术,在其设计深处,都或多或少将流形上的约束问题转化为李代数空间的优化问题:

  • SLAM后端优化的位姿增量定义在 se(3) 切空间,通过指数映射保证位姿始终在流形上

  • 运动规划在 so(3) 参数空间采样控制点,经指数映射生成平滑无奇异的姿态轨迹

  • 全身控制任务空间速度天然是 se(3) 的元素,通过雅可比矩阵与关节空间建立线性映射

  • 模型预测控制在 se(3) 切空间上做系统线性化,将有限时域优化转化为标准 QP 问题

  • 大模型动作微调将动作增量定义在 se(3) 上做梯度下降,确保网络输出的每一步修正都合法且几何正确

这不是巧合。

这是由具身智能的本质「在物理世界中生成和控制刚体运动」所决定的。

无论是高阶自动驾驶的量产落地,还是人形机器人的自主操作,都离不开这两大数学工具的支撑。

只有让智能体既“符合物理”(遵循李群规则),又“会学习”(借助李代数优化),才能真正实现从“虚拟智能”到“行动智能”的跨越。

感谢阅读,《具身智能基础》栏目,下一篇,你期望是什么内容?

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐