AI系统-19具身智能/机器人介绍

文章摘要：本文探讨了人工智能发展的终极目标——打造具身智能机器人（Embodied AI），即拥有身体并能与环境交互的智能体。文章指出，ChatGPT和大语言模型的出现推动了具身智能的发展热潮，使其成为当前科技风口。具身智能的核心价值在于通过多模态感知、自主决策和执行能力，在特定领域超越人类。文章分析了产业趋势、技术挑战（感知、决策、执行）及落地难点，强调需要跨学科技术整合。最后指出，虽然目前具身

thatway1989

132人浏览 · 2026-03-29 15:02:43

thatway1989 · 2026-03-29 15:02:43 发布

人类的科技发展，不论是生物学、计算机及其他自然科学，其实有一个终极动向：造人，成为造物主上帝一样的万能。换句话说我们的科技的努力就是要打造一个新人类，来替换掉如今旧的我们，从而更长久的生存。这就跟哲学上的“以人为本”一个道理。目前最贴合的技术就是AI机器人了。

人工智能这个方向的诱惑实在太大，所以在技术成熟前就沦为画饼欺骗的工具，在之前文章：AI系统-1AI的应用和历史中指出了这个过程延续了很多年，只要说搞人工智能就是骗子没经费，所以各种替代词天花乱坠，例如大数据、模糊识别等。直到智能涌现能力的Transformer出现，这个词才重新进入大众视野。

在一些列技术发展的今天，要说目前的风口，那估计就是AI机器人了，也叫具身智能。其用到的核心AI技术，跟之前介绍的基本一样，这里就不分析具体技术，从另外一些角度分析为什么会有风来？，带大家科普了解下具身智能和机器人产业的一些思考。

1. 具身智能介绍

1.1 具身智能定义

具身智能（Embodied AI）：具有身体的的智能AI。

具体点说，像人一样能与环境交互感知，自主规划、决策、行动、执行能力的机器人/仿真人（指虚拟环境中）是AI的终极形态，我们暂且称之为“具身智能机器人”。它的实现包含了人工智能领域内诸多的技术，例如计算机视觉、自然语言处理、机器人学等。

1.2 具身智能价值

具身智能的价值：在某个领域超越人类，对人类有帮助。

具身智能：本体决定上限，算法决定下限。例如只有一个机械臂，那本体就是手臂那再智能只能做一个手臂的事情。算法是下限就是说不同算法的智能程度差异巨大，需要不断的改进算法。

1.3 具身智能为什么火？

其能火起来，因为ChatGPT，因为大语言模型具备的涌现能力，大家的第一印象就是可以让这个有智慧的AI有一个身体去做更多的事情。

ChatGPT还是数字二维世界，但是物理三维世界也可以用LLM，汽车可以用LLM去自动驾驶，但是机器人也可以用，进入三维物理世界去感知、决策、执行，辅助人类，就跟科幻电影里面的机器人一样。

特斯拉说自己不是一家汽车公司，是一家AI企业。理想汽车最近的AI Talk也这样说。之前文章：AI系统-6从Transformer大模型到端到端自动驾驶算法中的NPU软硬件是LLM出现后开始的，英伟达能上风口，完全是风口撞上了英伟达，因为英伟达也没想到自己的GPU被用于训练大模型，就是突然就有用了，突然就上了风口。那么这个具身智能也是大模型出现后才进入风口的产物，所以西方能把其看成第四次工业革命。之前的物联网技术跟这个比弱爆了。

一个技术看似很好，例如被学术界看好，但是其并不一定能在社会上流行起来，因为还有工业界的一些限制，必须考虑成本和可复制的需求，而且需要多层次的技术推动，不能有短板。上述都满足后还需要资本看好的这个东西。所以有时候趋势出来是必然中夹杂着偶然，不一定什么时候什么技术就火了，成了风口，那时候再跟进其实也不晚。

下面是具身智能火爆的一些因素：

AI大模型的技术
视觉语言等领域AI的应用
算力硬件的增长
电池技术
电机技术
成本
老龄化
资本炒作
学术界
工业界

2. 具身智能怎么落地？

2.1 产业趋势

特斯拉投入Embodied AI的原因？

机器人是汽车的延伸
都有感知规划决策控制的过程，技术栈类似，可以迁移
成本低，因为汽车上的技术积累不用重新再开发，AI的基础设施可以共用

从技术成熟度看：目前汽车处于复苏期，而机器人估计在则在期望膨胀期。

从创新扩散曲线看，机器人处于创新期，汽车则在早期大众。

这个图跟创新扩散比较像，从产品生命周期来看也一样。从这些周期上看，对于大公司来说要找对节奏，在成长期一定全力投入入局，在其他期要减少投入，但是又不能不提前布局，这样的策略会比较好。而且进入成熟期之后就需要慢慢退出，等衰退期再退就有些晚了。这就是把握事物的规律，可能公司干实事的老板不太了解这些，但是资本市场对这些曲线了如指掌。从这个角度看资本跟技术的深度结合是很有必要的。

目前，具身智能已经成为国际学术前沿研究方向，包括美国国家科学基金会在内的机构都在推动具身智能的发展，今年的 IROS将具身智能作为一个很重要的主题提了出来，谷歌公司 Everyday Robot 的SayCan已经将机器人和对话模型结合到一起，能够让机器人在大型语言模型的帮助下，完成一个包含 16 个步骤的长任务。UC 伯克利的 LM Nav 用三个大模型（视觉导航模型 ViNG、大型语言模型 GPT-3、视觉语言模型 CLIP）教会了机器人在不看地图的情况下按照语言指令到达目的地。

2.1 AI数据差异

目前的AI是否适合机器人？

目前的AI训练数据基本来自互联网上数据，也可以说的互联网AI，更多的是书籍文献、图片，音视频等。具身智能是需要移动身体，有上肢（机械臂）下肢（机器狗），关于移动的这些训练数据还需要进行强化。这就像小孩开始学坐爬走跑跳一样，需要不断的尝试。而且小孩发音之前也是先听懂了话，但是发音要带动音带震动，需要操控肌肉，这里就像训练肌肉的把控力度，也叫肌肉记忆。

机器人比汽车要求控制精度高，汽车的传感器是固定的，机器人是在移动的。

关于收集训练的AI数据，需要人去操作模仿机器人移动戴上传感器收集，汽车就简单些，开车就可以收集。就是说教车开车容易，教机器人移动需要自己移动就费力了，就像跑步和开车的区别。

人形机器人跟人在一个环境，所以其移动速度需要跟人匹配，不能过快或者过慢，而且要考虑人的安全因素。

人的生存场景比较多，人形机器人的数据就也比较多，数据类型和量都很大。这样就需要对人的技能和场景进行拆分，例如倒水，人要用到眼睛和手的触觉，首先让机器人有这两个传感器，然后就是大量数据和场景下的训练，这个模型训练好，一个机器人学会了倒水，那么这个模块就可以以数据的形式保存下来，以后其他的机器人集成进去就也会倒水了，跟我们人类不一样，其可以永生，而且生而知之，不用再学习了。

但是第一次开始训练技能改进算法的时候还是比较困难，估计国外已经在路上了（有理想不差钱），国内还在跟风中，总之要造一个人还是比较难的。其实人类的一切先进的技术都有往新造一个人的技术趋势上发展，例如医学、计算机等，甚至武器也是摧毁人的，都是跟人相关的技术才最核心。

目前在酒店或者饭店车站都有类似的双足机器人，都是一些落地场景，但是其可能并没有用上大语言模型等拥有很多自主能力，算法下限还需要提高。

2.2 基础设施差异

另外基础设施上，机器人在端侧需要更强大的算力芯片也就是推理芯片，在服务器端的训练则需要更多的算力，也需要硬件NPU、GPU等的进步，甚至量子计算的辅助。

目前因为技术参差不齐落地场景不够明确，就像一个玩具。国外的技术先进些，已经开始落地一些清洁机器人，做饭机器人等。其实完全人形的机器人，什么功能都有有时候比较多余，就像我们的PC跟嵌入式专业电脑一样，PC里大部分硬件平时不一定都用的上，但是大家资源富足的时候都用上了PC。

工厂里面的机械臂是规划好的路径去工作不是智能。需要自主去判断决策才可以，现在很多商业演示的机器人其实都是固定路径或者背后有人去控制的，就是说是假的，但是很震撼。这种商业演示可以看做一个热度调研，很多时候都是还没做，只是demo演示，如果资本看好有做的必要，进行了投资才会大力研发，目前来看资本很看好。

3. AI机器人能力的挑战

场景上划分为；通用场景和专用场景。从功能上划分为：感知、决策、执行。

感知上的挑战：

处理没见过的物体
处理没经历过的场景
人机交互的挑战

决策上的挑战：

长任务规划和处理
多任务处理
失败重新规划能力
行动规划能力

执行上的挑战：

上肢的动作
下肢走路或者底座等

面对这些挑战，需要使用技术去解决。例如多模态的感知，大数据LLM，以及模仿学习等。

3.1 基础模型

对于机器人的学习，需要各种各样的输入，最后造一个适合所有机器人的非常大的模型叫基础模型，可以理解使用这个基础模型作为机器人的出厂版本，生而知之。

有了基础模型（学校教育）后，专业的场景（刚进入企业工作）再针对的训练下，然后就可以上岗边干边学了。但是这个基础模型的训练需要针对各种场景，需要经历一个漫长的时期，就像一个人从小孩长大掌握各种技能需要数十年的时间。

模型不准确的挑战：可能会伤到人。

数据搜集：可以穿上传感器，一边工作，一边收集数据让去学习，甚至让机器自己去行动自己去训练，自我进步。

3.2 多学科融合

全面认识人工智能之所以困难，是有客观原因的。人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科，可以归纳为六个：（1）计算机视觉（暂且把模式识别，图像处理等问题归入其中）、（2）自然语言理解与交流（暂且把语音识别、合成归入其中，包括对话）、（3）认知与推理（包含各种物理和社会常识）、（4）机器人学（机械、控制、设计、运动规划、任务规划等）、（5）博弈与伦理（多代理人agents的交互、对抗与合作，机器人与社会融合等议题）。（6）机器学习（各种统计的建模、分析工具和计算的方法），这些领域目前还比较散，目前它们正在交叉发展，走向统一的过程中。我把它们通俗称作“战国六雄”，中国历史本来是“战国七雄”，我这里为了省事，把两个小一点的领域：博弈与伦理合并了，伦理本身就是博弈的种种平衡态。最终目标是希望形成一个完整的科学体系，从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。

人工智能作为一个含义甚广的领域，当然在这里只用简单理解其核心内涵：通过机器学习、深度学习、强化学习等学习方法，辅助人类洞察数据背后隐藏的模式，超越人类在诸多特定任务的能力，赋予智能体自主学习、进化的理论范式。近十年来，计算机视觉、自然语言处理等技术已经在图像识别、语音处理等任务有爆炸性的发展，方方面面的集成应用也早已经融入平常百姓家的日常生活。

可是，具有物理实体、能够与真实世界进行多模态交互，像人类一样感知和理解环境，并通过自主学习出色完成复杂任务的智能体，仍没有跳出科幻电影的剧本，拥入现实世界的怀抱。我们目前看到的还是一些玩具化的人形机器人，迈着呆板的步伐，做着看起来simple and easy的展示性任务（其实是很不容易的），诚然，想达到Boston Dynamics那样令人瞠目结舌的运动能力，需要极其先进的底层控制和硬件支撑，这还得仰仗国内学术、工业界共同的努力。