Pi0具身智能v3效果对比:与Pi0.5模型性能实测

1. 真实世界里的“公开考场”来了

你有没有想过,当机器人走进真实厨房,面对歪斜的碗碟、皱巴巴的纸巾、晃动的塑料瓶,它还能不能稳稳完成任务?过去几年,我们看到太多炫目的演示视频——灯光完美、物体摆放整齐、动作行云流水。但那些视频里,机器人可能只在精心设计的“温室”里待过,一旦环境稍有变化,就容易手足无措。

2025年底,一个叫RoboChallenge的评测平台悄然上线,它像一位不讲情面的主考官,把所有模型拉进同一个真实物理世界里比拼。没有剪辑,没有重来,所有操作都在真实机械臂上执行,连光线、桌面反光、夹爪微小的抖动都算数。它用30个贴近生活的任务——插花、倒薯条、叠洗碗巾、按按钮、清理桌面——组成了一套标准化考卷。这套考卷不看谁的PPT更漂亮,只问一个问题:你的模型,真能在现实世界里靠自己活下来吗?

正是在这个“公开考场”里,Pi0.5曾长期霸榜,成为行业公认的标杆。它代表了当时开源具身智能的最高水位线:能理解复杂指令,能规划多步动作,在结构化环境中表现稳定。但它的局限也很真实——面对未见过的物体组合、突然出现的遮挡、或者需要连续纠错的任务时,成功率会明显下滑。这就像一个考试总拿高分的学生,一到真实工作场景里,反而要反复请教同事。

而就在2026年1月,这个榜单被改写了。不是靠某个闭源黑盒,也不是靠工程团队的幕后遥控,而是一个完全开源的模型,用可复现、可验证的方式,把分数实实在在地提了上去。这不是一次简单的升级,而是整个评测逻辑的一次转向:从比谁的演示更酷,转向比谁的基础能力更扎实。

2. 四项关键任务的现场回放

评测不是抽象的数字游戏,而是看得见、摸得着的动作。我们来看RoboChallenge榜单上最典型的四个任务,它们像四扇窗户,让我们看清模型在真实世界中的反应。

2.1 插花:纤细花枝与窄口花瓶的精准博弈

任务要求很简单:拿起一支带叶的花枝,调整方向让花头朝下,然后准确插入一个窄口花瓶中,并重复三次。

Pi0.5的表现是教科书式的“差一点”。它能稳稳抓起花枝,也能识别花瓶位置,但在最关键的最后一步——让纤细的花枝垂直穿过瓶口——它失败了。叶片挂住了夹爪边缘,导致花枝被平放在瓶口上,像一根搭在杯沿的吸管。这不是计算错误,而是对物理交互的预判不足:它没预料到叶片与夹爪之间会产生这种微小的钩挂力。

Spirit v1.5则完成了整套动作。它先用视觉判断花枝重心,再微调夹爪开合角度避开叶片,接着在移动过程中持续调整腕部姿态,确保花枝始终处于垂直状态。三支花全部成功插入,瓶口没有一丝晃动。这个过程没有“试错”,只有一次到位的决策流。

2.2 桌面清理:10个杂乱物体的分类挑战

桌面上随意散落着10个物品:两只小碗、透明塑料瓶、揉成一团的纸巾、士力架包装盒、还有几个不同材质的小物件。任务要求是把它们分门别类放进垃圾桶和整理箱。

Pi0.5在这里陷入了“死循环”。它顺利分拣出第一只碗、一个瓶子和一张纸巾,但随后就卡在了一个无法被夹起的纸盒上。夹爪反复尝试,每次都是空抓或滑脱,时间一分一秒过去,剩下的7个物品始终没被触碰。问题不在于识别,而在于策略僵化——它没有“换一种方式试试”的弹性。

Spirit v1.5则展现了真正的流程思维。它先处理易抓取的硬质物品,再转向柔性物体。对于那团皱纸巾,它没有强求整团拾取,而是先用夹爪边缘轻轻拨开,再抓住一角提起;对于纸盒,它调整了夹取角度,从侧面施加压力而非顶部下压。4分钟内,所有物品各归其位,两只小碗甚至被叠在一起放进箱子。这不是单点技术的胜利,而是整套感知-规划-执行闭环的流畅运转。

2.3 物品整理:叉子、胶带、刷子的连续搬运

任务要求依次拿起叉子、胶带和刷子,准确移动到整理箱上方,再松手放入。

Pi0.5在这里暴露了模块化架构的典型缺陷。它第一次抓取叉子时抓空了;第二次虽然抓起,但抬升高度不够,夹爪撞歪了整理箱;松手时叉子掉在箱子外面;第三次尝试又失败,叉子直接滑落到桌子底下。整个过程像三个独立的片段,彼此之间没有状态继承——前一次失败的经验,没有转化为下一次的改进。

Spirit v1.5则像一个有记忆的学徒。第一次抓叉子时,它记录下了桌面反光对视觉定位的干扰;第二次调整了摄像头焦距和夹爪接近角度;第三次不仅成功抓取,还提前计算了松手时机,确保叉子平稳落入箱中。胶带和刷子的搬运同样流畅,整个流程一气呵成,没有停顿,也没有重复失误。

2.4 倾倒薯条:双臂协同的物理直觉

这是一个双臂任务:一只机械臂固定住透明塑料盒,另一只掀开盒盖,然后将盒中薯条倾倒进一旁的盘子。

Pi0.5在第一步就止步。它无法判断盒盖的开启方向和所需力度,夹爪在盒盖边缘反复试探,最终放弃。这不是算力不足,而是缺乏对“盖子”这一物理对象的常识性理解——它没见过足够多的“需要掀开的盖子”。

Spirit v1.5则直接进入了操作状态。它用固定臂稳住盒子底部,同时用另一只臂的指尖传感器感知盒盖边缘的微小缝隙,然后施加一个旋转+上提的复合力。盒盖应声而开,薯条顺利倾倒。整个动作没有犹豫,仿佛它早已在无数个类似场景中练习过。

3. 数据背后的三个关键提升

RoboChallenge的榜单数字很直观:Spirit v1.5综合得分66.09,Pi0.5为58.72。但分数背后,是三个维度的实质性进步,它们共同构成了这次升级的骨架。

3.1 泛化能力:从“见过的”到“没见过的”

泛化能力不是玄学,它体现在一个具体指标上:新任务成功率。在RoboChallenge的30个任务中,有12个是评测方临时加入的“盲测题”,这些任务的物体组合、摆放方式、操作顺序,模型在训练阶段从未见过。

Pi0.5在这些盲测题上的平均成功率是38.2%。它能完成其中一些,但更多时候需要工程师手动干预或重置任务。Spirit v1.5则达到了52.6%。这个14个百分点的差距,意味着它不再依赖“背题”,而是真正具备了举一反三的能力。

这种提升的根源,在于训练数据的范式转变。Pi0.5依赖的是高度筛选的“干净数据”——每个动作都被精确录制,每个物体都摆放在最佳位置。而Spirit v1.5的训练数据来自开放式采集:操作员今天想教机器人清理厨房台面,就随机拿起容器、擦拭碎屑、整理餐具……所有动作在一个连续会话中自然发生。模型学到的不是100个标准动作,而是100种应对意外的思路。

3.2 长时序稳定性:从“单点精准”到“全程连贯”

很多模型能做好第一步,却在第十步崩溃。这是因为传统方法把长任务拆成多个短任务,每一步都重新规划,导致误差不断累积。Pi0.5在10步以上的任务中,成功率会下降近40%。

Spirit v1.5采用端到端VLA(视觉-语言-动作)架构,把整个任务当作一个统一序列来处理。它不是在“做A,然后做B,再做C”,而是在“完成一个目标”的大框架下,动态生成所有中间动作。这就像人做饭,不会把“切菜”、“炒菜”、“装盘”当成三个孤立事件,而是围绕“做出一盘菜”这个目标,随时调整手部动作和火候。

在“浇盆栽”任务中,这个优势尤为明显。Spirit v1.5需要先找到水壶,再判断水量,然后移动到植物旁,最后控制水流速度和方向。整个过程持续近90秒,它没有一次中断或重置,动作衔接如呼吸般自然。

3.3 计算效率:小身材,大能量

参数规模常被误认为是能力的唯一标尺。Pi0.5是一个参数量较大的模型,部署需要高端服务器。而Spirit v1.5选择了更务实的路径:4.2B参数,使其能在消费级显卡上运行,推理延迟控制在300ms以内。

这不是妥协,而是聚焦。它把算力预算花在了刀刃上——强化视觉-语言-动作的联合建模,而不是堆砌参数。结果是,在同等硬件条件下,它的任务完成速度比Pi0.5快1.7倍,且功耗降低35%。这意味着它不仅能跑在实验室的服务器上,也能嵌入到真实的工业机器人控制器里,真正走向落地。

4. 这次升级,到底改变了什么

回头看标题里的“Pi0具身智能v3”,其实是个有趣的误会。Pi0系列本身并没有发布v3版本,这次实测的主角,是Spirit v1.5这个全新的中国模型。它和Pi0.5的对比,不是同一产品线的迭代,而是两种技术哲学的正面交锋。

Pi0.5代表的是“自上而下”的精密工程:先定义理想世界,再训练模型去适应它。它强大,但边界清晰——一旦现实偏离预设,就需要人工介入。Spirit v1.5走的则是“自下而上”的演化路径:主动拥抱混乱,在真实世界的噪声中学习。它不追求在每一个已知任务上都做到满分,而是确保在绝大多数未知任务上,都能给出一个靠谱的解决方案。

这种差异,最终反映在应用逻辑上。Pi0.5更适合在结构化程度高的场景,比如特定产线上的单一工序;而Spirit v1.5正在宁德时代的动力电池PACK生产线上实际运行,那里来料位置有偏差、插接点位会变化、柔性线束的力度需要实时调节——它不是在完成一个任务,而是在应对一连串的不确定性。

所以,这次实测的意义,远不止于一个榜单名次的更替。它验证了一种可能性:具身智能的进化,不一定非要靠更大的模型、更多的数据、更强的算力。有时候,换一种看待世界的方式,就能走出一条更扎实的路。这条路的终点,不是能完成多少个演示任务,而是能让机器人真正成为我们工作和生活中的可靠伙伴——不是在温室里,而是在风雨中。

5. 总结

用下来感觉,这次升级最打动人的地方,不是那些亮眼的数字,而是它处理意外时的那种从容。Pi0.5像一个准备充分的考生,遇到考卷上的题目游刃有余,但一旦题目稍有变形,就会露出困惑的表情;Spirit v1.5则更像一个经验丰富的老师傅,工具可能不是最贵的,但面对各种突发状况,总能找到那个最顺手、最稳妥的解决办法。

它没有试图在所有维度上都碾压对手,而是在泛化能力、长时序稳定性和部署友好性这三个对真实应用最关键的地方,给出了更均衡的答案。如果你正考虑把具身智能引入自己的业务场景,与其纠结于理论峰值,不如先问问自己:我的环境够不够“乱”?我的任务够不够“长”?我的硬件够不够“实在”?答案如果偏向肯定,那么这次实测的结果,或许就是你需要的那个信号。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐