彻底搞懂具身智能必备知识：李群、李代数、四元数

轨迹的本质是SE(3)的序列，我们可以通过对数映射将SE(3)转化为se(3)，通过梯度下降优化se(3)向量，再通过指数映射转化回SE(3)，得到符合物理规律的最优轨迹；，李群与李代数的价值尤为突出：它们解决了姿态表示的万向锁问题，通过李代数的线性化特性实现了轨迹优化的可微性，依靠李群的约束规则保证了行驶动作的物理一致性，让自动驾驶汽车能够在复杂路况中精准定位、顺畅避让；李群的核心作用，是描述三

深蓝学院

274人浏览 · 2026-06-08 10:15:00

深蓝学院 · 2026-06-08 10:15:00 发布

具身智能 ≈ 李群上的机器学习？

大家好，这里是【深蓝具身智能】。

一直以来，我们都在这里分享具身智能的前沿进展：最新的论文、惊艳的 demo、不断刷新的基准。承蒙大家厚爱，每一份阅读和留言都是我们坚持创作的动力。

与此同时，我们也经常能收到粉丝的留言：新概念好多感觉追也追不完，深蓝有没有可能聊聊那些更底层、更扎实的东西？

我们也深有同感。第一性原理，其实在具身智能的研发里无处不在。再新的方法，也脱胎于那些“老派的”基础。不如一起蹲下来，把这些构成具身智能骨骼的东西，一块一块重新捡起来，用今天的眼光理解一遍。于是，我们推出了——《具身智能基础》这一专栏。

第一篇，我们从 李群代数 聊起。本文约 10000 字，建议先收藏。

01 通俗解释：李群与李代数

李群：三维空间中“合法运动”的集合

李代数：把“弯曲运动”掰平的“计算工具”

02 李群与李代数在具身智能（含自动驾驶）中广泛应用的原因

（一）解决“姿态表示”的核心痛点，避免运动异常

（二）适配深度学习，实现“可微优化”

（三）保证“物理一致性”，适配真实世界场景

我们十年前学机器人的时候，旋转变换可以用欧拉角顶一顶，实在不行上旋转矩阵。SLAM 里用四元数做状态变量，微分的时候小心翼翼加个扰动。反正，用各种 hack 和补丁，一切似乎都过得去。（了解背景的朋友，可以跳过这一部分）

后来，业内开始将深度学习与物理运动深度耦合，问题就集中爆发了。

为什么？

在传统 SLAM、轨迹优化、运动控制里，处理旋转和刚体运动时，我们并不是真的在欧拉角空间里做优化（狭义的形容）。

深度学习的介入改变了游戏规则：把原本藏在优化器内部的几何操作，暴露到了网络的前向传播和反向传播中。

当具身智能需要让神经网络输出动作、需要在大范围姿态变化中做优化、需要保证生成的运动轨迹严格物理可行时，绕路就走不大通了。我们必须直面旋转空间的真正结构。

而这个结构，就叫李群。

这也是我们第一篇文章，选择从李群、李代数、四元数开始的原因。

本文不打算停留在概念介绍层面，而是希望通过系统的数学推导，将三者之间的转换关系与工程中（具身智能、自动驾驶）的使用边界一次性讲清楚。

文章中会包含大量公式，但每一个推导都服务于一个具体的问题。

01 通俗解释：李群与李代数

要理解李群与李代数，我们无需上来就陷入复杂的数学定义，只需抓住“描述运动”这一核心。

二者都是用来刻画三维空间中物体“姿态”和“运动”的工具。

区别在于一个描述“真实状态”，一个提供“计算便利”。

李群：三维空间中“合法运动”的集合

李群的核心作用，是描述三维空间中物体的“姿态”和“刚体运动”，我们最常用的就是李群中的两个核心成员：SO(3)和SE(3）。

它们就像两个“运动规则手册”，规定了物体在空间中能做哪些合法运动。

一、SO(3)（三维特殊正交群，Special Orthogonal Group 3）

核心是“纯旋转”，完全不涉及平移，是李群中描述三维空间旋转的核心集合。

从数学定义来看，SO(3)是所有3×3正交矩阵的集合，且每个矩阵的行列式为1，这两个约束条件确保了旋转的合法性：

旋转后物体的形状、大小不变，不会出现扭曲、拉伸等不符合物理规律的情况。

其核心公式（SO(3)定义约束）为：

$R \in \mathrm{SO}(3) \iff R^T R = I,\ \det(R) = 1$ ,

同时满足旋转矩阵乘法（姿态叠加）公式：

$R_{AB} = R_{AC} R_{CB}$ （A 相对于 B 的旋转 = A 相对于 C 的旋转 × C 相对于 B 的旋转）。

SO(3)的核心是描述三维空间的“合法纯旋转”，核心要求是旋转后物体形状、大小不变，即旋转过程满足“正交性”和“右手定则”。这两个约束公式的推导过程如下：

（1）正交性约束推导：

旋转本质是线性变换，若用矩阵 $R$ 表示旋转，对于空间中任意向量 $\vec{x}$ ，旋转后向量为 $\vec{x}' = R\vec{x}$

由于旋转不改变向量长度，即 $\|\vec{x}'\| = \|\vec{x}\|$

根据向量模长公式， $\|\vec{x}'\|^2 = (\vec{x}')^T \vec{x}' = (R\vec{x})^T R\vec{x} = \vec{x}^T R^T R \vec{x}$

又因为 $\|\vec{x}\|^2 = \vec{x}^T \vec{x}$ ，因此 $\vec{x}^T R^T R \vec{x} = \vec{x}^T \vec{x}$ 对任意向量 $\vec{x}$ 成立；

可推出 $R^T R = I$ （ $I$ 为 $3\times 3$ 单位矩阵），即旋转矩阵为正交矩阵。

（2）行列式约束推导：

正交矩阵的行列式满足 $\det(R^T R) = \det(I) = 1$ ；

而 $\det(R^T R) = \det(R^T)\cdot\det(R) = [\det(R)]^2$

因此 $[\det(R)]^2 = 1$ ，即 $\det(R) = \pm 1$ ；

由于 $\mathrm{SO}(3)$ 描述的是“右手旋转”（符合物理世界的旋转方向，如顺时针、逆时针旋转），排除 $\det(R) = -1$ （对应镜像反射，非真实旋转）；

最终得到 $\det(R) = 1$ 。

综上，SO(3)的定义约束公式确保了旋转的合法性。

通俗来说，就是物体在原地转圈、翻身、扭头，位置不变，只改变朝向。

比如机器人的头部转动、相机调整拍摄角度，这些都属于SO(3)描述的范畴。

SO(3)本质上是所有“合法旋转”的集合，每一个旋转姿态（比如转30度、转90度），都是SO(3)这个集合里的一个元素。

它为三维旋转提供了严格的几何规则，是具身智能中姿态表示的基础。

二、SE(3)（三维特殊欧氏群，Special Euclidean Group 3）

核心是“全套刚体运动”，即“旋转+平移”的组合，是 SO(3)的拓展与延伸，也是描述三维空间中刚体运动最全面的李群。

其关键公式（SE(3) 齐次变换矩阵）为：

$T \in \mathrm{SE}(3) \iff T = \begin{pmatrix} R & t \\ 0^T & 1 \end{pmatrix}$ ,

其中， $R \in \mathrm{SO}(3)$ （旋转矩阵）， $t \in \mathbb{R}^3$ （平移向量）， $0^T = [0,0,0]$ （3 维零行向量）。

SE(3)是“旋转+平移”的组合，用于描述三维空间中刚体的完整运动，如自动驾驶汽车行驶+转向、机器人手臂移动+调整角度。

该公式的推导过程如下：

（1）刚体运动的原始表达：

空间中任意点 $\vec{p}$ ，经过旋转 $R$ 和平移 $t$ 后，得到新坐标 $\vec{p}'$ ，原始关系式为 $\vec{p}' = R\vec{p} + t$

但该式为非齐次线性方程，无法直接通过矩阵乘法实现多个运动的叠加（如先旋转平移，再旋转平移），不利于工程计算。

（2）齐次化改造：

为了统一旋转和平移的计算，引入齐次坐标，将 3 维向量 $\vec{p}$ 扩展为 4 维齐次向量 $\tilde{p} = \begin{pmatrix} \vec{p} \\ 1 \end{pmatrix}.$

此时，旋转和平移可合并为一个 $4\times 4$ 矩阵 $T$ ，即

$T\tilde{p} = \begin{pmatrix} R & t \\ 0^T & 1 \end{pmatrix} \begin{pmatrix} \vec{p} \\ 1 \end{pmatrix} = R\vec{p} + t = \vec{p}'$

与原始关系式一致。

（3）合法性约束：

由于 $T$ 中的 $R$ 必须满足 $\mathrm{SO}(3)$ 的约束，即： $R^T R = I,\ \det(R) = 1$ ，

因此 $\mathrm{SE}(3)$ 的核心约束是“旋转矩阵符合 $\mathrm{SO}(3)$ ，平移向量无额外约束”。

最终形成上述齐次变换矩阵公式，完美覆盖刚体运动的所有情况。

数学定义来看，SE(3)由平移向量和SO(3)旋转矩阵组成：

通常用一个4×4的齐次变换矩阵表示，既能体现物体的位置（平移向量），又能体现物体的朝向（旋转矩阵），完美覆盖了三维空间中刚体运动的所有可能情况。

通俗来说，就是物体既改变位置，又改变朝向，这是现实世界中最常见的运动形式。

比如自动驾驶汽车在路上行驶，同时调整车头朝向避让障碍物；

机器人手臂从一个位置移动到另一个位置，同时调整抓取角度。

SE(3)作为具身智能描述智能体状态的核心工具，能完整捕捉智能体的“位置+姿态”，为后续的感知、规划、控制提供精准的状态基础。

具身智能中的刚体运动，不仅包含旋转，还包含平移。旋转矩阵加上平移向量构成 SE(3)，即三维特殊欧几里得群。

它同样是李群，一个六维的流形。

机械臂的末端位姿、无人机的空间位置与姿态、相机的外参……所有这些，都是 SE(3) 中的点。

三、简单总结

李群（SO(3)、SE(3)）就是“真实物理世界中物体运动的合法集合”，它规定了智能体的姿态和运动必须遵循的规则，确保运动符合物理规律，不出现“不合常理”的状态，比如物体旋转后形状扭曲。

李代数：把“弯曲运动”掰平的“计算工具”

李代数是李群的“配套工具”，对应SO(3)的李代数是so(3)，对应SE(3)的李代数是se(3)。

我们可以用一个生活化的比喻理解二者的关系：

把李群（SO(3)/SE(3)）比作“球形地球”，地球表面是弯曲的，就像李群中物体的姿态的运动轨迹是非线性的，无法直接用简单的加减、求导来计算；

而李代数（so(3)/se(3)）就是“平面地图”，它把弯曲的球面（李群）摊平成平面（线性空间），让我们可以用简单的数学运算（加减、求导）来处理姿态和运动。

熟悉数学的读者是否想起了，非线性计算的线性化近似呢？

就是类似的思想。

与SO(3)、SE(3)相对应，李代数也分为两类：so(3)和se(3)。

一、so(3)是3维向量空间，对应SO(3)的“旋转增量”，比如：

机器人转头的角度变化、相机拍摄方向的微小调整，这些微小的旋转变化，都可以用so(3)这个3维向量来表示。

它本质上是SO(3)在单位元处的切空间，承载着旋转的微小变化量。其核心公式如下：

（1）关键公式1（so(3)定义）：

（2）关键公式2（指数映射，so(3)→SO(3)）：

简化后为

（3）关键公式3（对数映射，SO(3)→so(3)）：

其中 $\theta = \arccos\left(\frac{\mathrm{tr}(R) - 1}{2}\right)$ ， $\mathrm{tr}(R)$ 为旋转矩阵 $R$ 的迹。

so(3)是SO(3)在单位元（单位旋转矩阵I）处的切空间，核心作用是将SO(3)的非线性旋转转化为线性向量 $\omega$ （旋转增量），方便计算优化。

这些公式的推导过程如下：

（1）so(3)定义推导：

$\mathrm{SO}(3)$ 中的旋转矩阵 $R$ 满足 $R^T R = I$ ，对该式两边关于时间 $t$ 求导，假设 $R$ 是时间的函数，即 $R(t)$ ，表示旋转随时间变化；
得到 $\dot{R}^T R + R^T \dot{R} = 0$ ，整理得 $R^T \dot{R} = -(R^T \dot{R})^T$ ，说明 $R^T \dot{R}$ 是反对称矩阵（满足 $A^T = -A$ ）；
令 $\omega^{\wedge}(t) = R^T(t)\dot{R}(t)$ ，则 $\omega^{\wedge}(t)$ 是 $3\times 3$ 反对称矩阵，而 3 维反对称矩阵的集合可与 3 维向量 $\omega \in \mathbb{R}^3$ 一一对应；
对应关系即为上述 $\omega^{\wedge}$ 的矩阵形式（称为向量 $\omega$ 的“反对称化”）。
因此 $\mathfrak{so}(3)$ 定义为所有 3 维向量的反对称化集合。

（2）指数映射推导：

指数映射的核心是将线性的 so(3) 向量 $\omega$ （旋转增量）转化为非线性的 SO(3) 旋转矩阵 R。

由于 $\omega^\wedge$ 是反对称矩阵，可利用泰勒展开推导指数映射：

首先，计算 $\omega^\wedge$ 的幂次：

后续幂次可循环推导；

然后将幂次代入泰勒展开式，结合三角函数泰勒展开：

其中 $\theta = \|\omega\|$

最后整理可得上述简化公式。

该公式与原始泰勒展开式等价，且更便于工程计算，实现了so(3)到SO(3)的转化，是具身智能中姿态优化的核心链路。

二、se(3)是6维向量空间，对应SE(3)的“运动增量”

包含3个平移增量（前后、左右、上下）和3个旋转增量（绕X、Y、Z轴的转动），比如自动驾驶汽车行驶时的微小位移和方向调整，就可以用se(3)来描述。

它是SE(3)在单位元处的切空间，完整对应刚体运动的微小变化。其核心公式如下：

（1）关键公式1（se(3)定义）：

（2）关键公式2（指数映射，se(3)→SE(3)）：

这些公式的推导过程如下：

se(3) 是 SE(3) 在单位元（单位齐次矩阵 $T_0 = \begin{pmatrix} I & 0 \\ 0^T & 1 \end{pmatrix}$ ）处的切空间，对应 SE(3) 的“运动增量”（3 个旋转增量 $\omega$ + 3 个平移增量 $v$ ）。

（1）se(3)定义推导：

类比so (3) 的推导，SE(3) 中的齐次矩阵 $T$ 满足 $T^{-1} = \begin{pmatrix} R^T & -R^T t \\ 0^T & 1 \end{pmatrix}$ （逆矩阵公式）。

对 $T(t)T^{-1}(t) = I$ 两边关于时间 $t$ 求导，得到

$\dot{T}(t)T^{-1}(t) = -T(t)\dot{T}^{-1}(t)$ ，

说明 $\dot{T}(t)T^{-1}(t)$ 是 $4\times 4$ 反对称矩阵（广义反对称矩阵）。

令 $\xi^{\wedge}(t) = \dot{T}(t)T^{-1}(t)$ ，则 $\xi^{\wedge}(t)$ 可表示为上述 $4\times 4$ 矩阵形式。

其中 $\omega^{\wedge}$ 是 $3\times 3$ 反对称矩阵（对应旋转增量）， $v \in \mathbb{R}^3$ 对应平移增量。

因此se(3)定义为所有6维向量ξ的广义反对称化集合。

（2）指数映射推导：

se (3)的指数映射是将 6 维线性向量 $\xi$ （运动增量）转化为 $4\times 4$ 齐次变换矩阵 $T$ 。

由于 $\xi^{\wedge}$ 可拆分为旋转部分和平移部分，结合 so(3) 的指数映射，对 $\exp(\xi^{\wedge})$ 做泰勒展开，分离旋转和平移项：

旋转部分： $\exp(\omega^{\wedge})$ （与so(3)到SO(3)的指数映射一致）；

平移部分：通过泰勒展开整理，得到 $Jv$ ，其中 $J$ 为雅可比矩阵，用于补偿旋转对平移的影响（避免平移计算出现偏差）。

三、简单总结

李代数的核心价值的是“线性化”：

李群中的运动是非线性的（比如旋转不能直接相加），无法直接用于深度学习的梯度下降、反向传播；

而李代数把这种非线性运动转化为线性向量，让智能体的大脑（神经网络）可以轻松计算、优化动作。

这也是李代数能成为具身智能核心工具的关键原因之一。

02 李群与李代数在具身智能（含自动驾驶）中广泛应用的原因

具身智能的核心需求，是让智能体在三维物理世界中“精准感知、稳定决策、顺畅执行”，而李群与李代数恰好解决了这一过程中的痛点

——既保证运动的物理合理性，又适配深度学习的计算需求。

无论是人形机器人、自动驾驶，还是智能物流设备，只要涉及三维空间中的姿态感知、运动规划、动作控制，都离不开李群与李代数。

具体原因可分为以下三点。

（一）解决“姿态表示”的核心痛点，避免运动异常

在具身智能中，智能体的姿态表示，比如机器人的朝向、自动驾驶汽车的车头方向是基础，而传统的姿态表示方法（欧拉角）存在致命缺陷，比如：

万向锁：当物体绕Y轴旋转90度时，会丢失一个自由度，导致无法完成某些旋转动作。

这在实际应用中会导致智能体动作卡顿、失控，比如自动驾驶汽车避让障碍物时，车头方向无法正常调整。

李群（SO(3)、SE(3)）完美解决了这个问题：

SO(3) 描述的旋转没有万向锁，其定义约束公式 $R^T R = I, \det(R) = 1$ 能精准表示三维空间中的任意旋转姿态；

SE(3) 则通过齐次变换矩阵 $T = \begin{pmatrix} R & t \\ 0^T & 1 \end{pmatrix}$ 完整表示“位置 + 姿态”，确保智能体的运动符合物理规律。

而李代数（so(3)/se(3)）则通过指数映射与对数映射，为姿态的优化提供了可能，让智能体可以快速调整姿态，避免运动异常。

比如在自动驾驶的SLAM（同步定位与地图构建）中，相机和汽车的位姿都用SE(3)表示，确保定位精准，不会出现姿态偏差导致的导航失误。

这也是李群在自动驾驶中最基础的应用场景之一。

（二）适配深度学习，实现“可微优化”

具身智能的核心是“学习能力”——智能体需要通过大量数据训练，优化自己的动作策略（比如机器人学习抓取物体、自动驾驶汽车学习避让行人）。

而深度学习的核心是“梯度下降”，需要对优化变量进行求导，这就要求优化变量必须是线性的、无约束的。

李群中的姿态：旋转矩阵、变换矩阵，是非线性的、有约束的（比如旋转矩阵必须满足 $R^T R = I,\ \det(R) = 1$ ），无法直接用于梯度下降；

而李代数（so(3)/se(3)）是线性向量，无约束，可直接求导、做反向传播，完美适配深度学习的计算需求。

比如在自动驾驶的轨迹优化中：

智能体需要根据路况调整行驶轨迹。轨迹的本质是SE(3)的序列，我们可以通过对数映射将SE(3)转化为se(3)，通过梯度下降优化se(3)向量，再通过指数映射转化回SE(3)，得到符合物理规律的最优轨迹；

比如在人形机器人的运动控制中：

关节姿态的优化也是通过“李群（姿态表示）→李代数（线性优化）→李群（动作执行）”的链路实现的，确保机器人的动作顺畅、稳定，同时具备自主学习能力。

（三）保证“物理一致性”，适配真实世界场景

具身智能与传统AI的最大区别，是需要“嵌入”真实物理世界，动作必须符合物理规律。

比如机器人抓取物体时，手臂的运动轨迹必须符合刚体运动规则，不能穿透物体；自动驾驶汽车的转向、刹车，必须符合三维空间的运动规律，不能出现“瞬移”“扭曲”等不合常理的动作。

李群（SO(3)、SE(3)）本身就蕴含了刚体运动的几何规则，SO(3)的正交性和行列式约束、SE(3)的齐次变换矩阵结构，用李群表示智能体的姿态和运动，能天然保证物理一致性；

而李代数则在不破坏物理规则的前提下，通过指数映射与对数映射实现动作的优化和调整。比如在智能驾驶的位姿图优化中，每个位姿节点用SE(3)表示，相邻位姿的变换约束用SE(3)或so(3)表示，通过李代数计算误差和雅可比矩阵，确保优化后的轨迹符合真实物理世界的运动规律，避免出现导航偏差、动作失控等问题。

简单来说，李群与李代数的组合，既让智能体动作符合真实世界规则，又让智能体适配深度学习的优化需求，这也是它们在具身智能（尤其是自动驾驶）中不可或缺的原因。

03 四元数与李群、李代数的关系

在具身智能的实践中，我们经常会听到“四元数或者哈密尔顿四元数”这个概念，其实它和李群、李代数一样，都是描述三维旋转的工具。

但三者的定位、用途完全不同。大致关系可以概括为：四元数是李群（SO(3)）的“便捷存储格式”，李代数（so(3)）是四元数的“优化工具”。

三者本质上都是描述三维旋转，又分工不同。

（一）各自定位：三者各司其职，互不替代

首先明确三者的各自定位，避免混淆：

李群SO(3)：

是“旋转的集合”，定义了三维旋转的所有合法形式，是旋转的“底层规则”。

其核心约束公式 $R^T R = I,\ \det(R) = 1$ 规定了旋转必须遵守的几何约束，不直接参与计算，只规定旋转必须遵守的几何约束。

四元数：

是李群SO(3)的“表达形式之一”（李群里面最常用、最好用的一种姿态写法），用4个数字（1个实部+3个虚部）表示一个三维旋转，是工程实践中最常用的“姿态存储格式”。

其关键公式（四元数定义）为：

它的优势是无万向锁、计算高效、插值顺滑，而且代码实现简单，广泛应用于机器人、自动驾驶的姿态存储和简单旋转计算。

李代数so(3)：

是“旋转增量的线性表示”，用3个数字表示旋转的微小变化，是“优化工具”。

其核心的指数映射和对数映射公式，实现了与SO(3)、四元数的转化，优势是线性、无约束，可直接用于梯度下降、反向传播，解决四元数和SO(3)无法直接优化的问题。

（二）核心关联：三者的转换链路

在具身智能的实际应用中，三者的转换是高频操作，操作路线非常清晰，我们用通俗的流程来描述：

智能体感知到当前姿态，比如相机拍摄方向、机器人手臂朝向，用四元数存储这个姿态；
当需要优化姿态，比如调整相机角度、修正机器人手臂位置时，先将四元数转化为so(3)（线性向量），在so(3)空间中做梯度下降、误差计算，完成优化；

四元数转化为so(3)的关键的是：

（1）先通过公式将四元数转化为SO(3)旋转矩阵R：

（2）再通过so(3)的对数映射 $\omega^{\wedge} = \log(R) = \frac{\theta}{2\sin\theta}\left(R - R^T\right)$ 得到so(3)向量ω。
优化完成后，将so(3)（旋转增量）转化为四元数，更新智能体的姿态，确保姿态符合SO(3)的规则（合法旋转）。

这一步需先通过so(3)的指数映射将ω转化为旋转矩阵R，再结合四元数与旋转矩阵的转化公式，得到对应的单位四元数。
智能体执行动作时，四元数对应的姿态就是SO(3)中的一个合法旋转，保证动作符合物理规律。

从数学角度来说，三者的转换依赖“指数映射”和“对数映射”：

so(3)通过指数映射，可以转化为四元数或SO(3)的旋转矩阵；
四元数或SO(3)的旋转矩阵，通过对数映射，可以转化为so(3)向量。

这种映射关系，实现了“线性优化”与“物理合法”的兼顾，也是三者能够协同工作的桥梁。

其中，四元数与SO(3)旋转矩阵的推导核心是“四元数旋转与旋转矩阵旋转的等价性”。

公式如下：

（1）四元数旋转的原始表达：

空间中任意3维向量 $\vec{x}$ ，用四元数表示为 $x = \begin{bmatrix} 0, x_1, x_2, x_3 \end{bmatrix}^T$ （纯虚四元数），经过四元数 $q$ 旋转后，得到新向量对应的四元数 $x' = q x q^{-1}$ （ $q^{-1}$ 为 $q$ 的逆，单位四元数的逆满足 $q^{-1} = q^*$ ）。

（2）转化为矩阵形式：

将 $x' = q x q^{-1}$ 展开，整理后可表示为 $\begin{pmatrix} 0 \\ \vec{x}' \end{pmatrix} = R(q) \begin{pmatrix} 0 \\ \vec{x} \end{pmatrix},$

其中 $R(q)$ 即为上述 $3 \times 3$ 旋转矩阵，该矩阵满足 $\mathrm{SO}(3)$ 的约束

$R^T R = I,\ \det(R) = 1$

证明四元数与SO(3)的旋转矩阵等价。

（3）约束条件推导：

由于四元数对应SO(3)的合法旋转，因此必须满足单位化约束

若四元数非单位化，旋转后向量长度会发生变化（不符合刚体旋转规则）。

因此工程实践中均使用单位四元数表示姿态，确保与SO(3)的一致性。

（三）优缺点对比：为什么需要三者协同？

单独使用某一种工具，都无法满足具身智能的需求，三者的协同正是为了互补长短：

四元数：

优点是无万向锁、存储高效、插值顺滑，适合姿态存储和简单旋转计算；

缺点是有约束（模长必须为1），无法直接用于深度学习的梯度优化。

四元数可以想象为高阶的复数，但是不存在三元数。

so(3)李代数：

优点是线性、无约束，可直接求导、优化，适配深度学习；

缺点是只能表示“微小旋转增量”，不适合长期存储姿态。

SO(3)李群：

优点是定义了旋转的合法规则，保证物理一致性；

缺点是非线性、有约束，无法直接计算和优化。

举个例子：

比如在自动驾驶中，汽车的姿态用四元数存储，避免万向锁和存储冗余；当需要优化行驶轨迹、修正车头方向时，将四元数转化为so(3)，通过梯度下降优化旋转增量，再转化回四元数更新姿态，确保姿态符合SO(3)的规则，既保证了计算高效，又保证了物理合理。

一些基础概念补充

万向锁

顺带说明一下，万向锁是传统姿态表示方法，如欧拉角。

理解欧拉角的关键是，不要以为xyz三个自由度会像坐标系一样始终保持两两正交，不是一定两两正交的。

它的致命缺陷，指当物体绕某一轴（通常是中间轴，如欧拉角的 Y 轴）旋转至 90 度时，会丢失一个旋转自由度，导致两个旋转轴重合，无法完成某些特定方向的旋转动作。

通俗来说，就像相机或机器人转头时，若先绕 Y 轴转 90 度，再想绕 X 轴或 Z 轴旋转，会发现两个旋转方向 “重合”，无法实现预期的转向，出现动作卡顿、失控的情况

—— 这就是万向锁。

▲图| 陀螺仪表示的三轴并不一定正交的欧拉角

丢失自由度

为了清晰，我们再描述一下丢失自由度，虽然有点冗余。

我们可以把欧拉角的三个旋转轴（比如“俯仰 - 偏航 - 滚转”）想象成相机的三个调节旋钮，正常情况下三个旋钮各司其职，能组合出任意朝向 ——

比如先调俯仰（抬头低头）、再调偏航（左右转头）、最后调滚转（左右倾斜），三个动作独立，覆盖所有姿态。

但当其中一个旋钮转到特定位置（比如偏航旋钮转 90 度），会发现另外两个旋钮的调节效果完全一样（比如“俯仰和滚转”都变成了 “左右倾斜”），相当于其中一个旋钮 “失效” 了

—— 这就是丢失自由度。

04 大多都能转化为李代数空间的优化问题

李群与李代数，是具身智能实现“物理世界适配”与“自主学习”的核心数学工具，它们与四元数协同工作，共同支撑着智能体在三维空间中的稳定运行。

从本质上来说：

李群（SO(3)、SE(3)）通过前面提到的等核心公式，定义了智能体运动的“物理规则”，确保动作符合真实世界的刚体运动规律；
李代数（so(3)、se(3)）通过指数映射、对数映射等公式，提供了“线性化计算工具”，让智能体能够通过深度学习优化动作策略；
四元数则通过单位化约束和与SO(3)的转化公式，作为“便捷存储格式”，解决了姿态存储和简单旋转计算的需求。

三者一起构成了具身智能姿态表示与运动控制的核心体系。

在具身智能的关键应用场景：

自动驾驶中，李群与李代数的价值尤为突出：它们解决了姿态表示的万向锁问题，通过李代数的线性化特性实现了轨迹优化的可微性，依靠李群的约束规则保证了行驶动作的物理一致性，让自动驾驶汽车能够在复杂路况中精准定位、顺畅避让；

在人形机器人、智能物流等场景中，它们同样发挥着不可替代的作用，让智能体能够灵活调整姿态、优化动作，真正实现“嵌入物理世界、自主完成任务”。

今天你能听到的很多具身智能技术，在其设计深处，都或多或少将流形上的约束问题转化为李代数空间的优化问题：

SLAM：后端优化的位姿增量定义在 se(3) 切空间，通过指数映射保证位姿始终在流形上
运动规划：在 so(3) 参数空间采样控制点，经指数映射生成平滑无奇异的姿态轨迹
全身控制：任务空间速度天然是 se(3) 的元素，通过雅可比矩阵与关节空间建立线性映射
模型预测控制：在 se(3) 切空间上做系统线性化，将有限时域优化转化为标准 QP 问题
大模型动作微调：将动作增量定义在 se(3) 上做梯度下降，确保网络输出的每一步修正都合法且几何正确

这不是巧合。

这是由具身智能的本质「在物理世界中生成和控制刚体运动」所决定的。

无论是高阶自动驾驶的量产落地，还是人形机器人的自主操作，都离不开这两大数学工具的支撑。

只有让智能体既“符合物理”（遵循李群规则），又“会学习”（借助李代数优化），才能真正实现从“虚拟智能”到“行动智能”的跨越。

感谢阅读，《具身智能基础》栏目，下一篇，你期望是什么内容？

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

AI+具身智能日报 | 2026-06-08:VLA 实用化元年,从“能不能用“到“怎么做更好“

"基础设施标准化"阶段已经到来。自研轮子的 ROI 急剧下降,真正的差异化在"数据飞轮+产品深度+客户关系"。这跟云计算时代"不必自建 IDC"的逻辑同构——英伟达/Coze/MCP/A2A 正在成为具身智能和 Agent 时代的新"水电煤"。数据来源:NVDIA 官方、ICRA 2026、雷锋网、深蓝具身智能、Reuters、36 氪、东方财富网、TechCrunch、观点网发布平台跳转中...