Pi0具身智能v3效果对比：与Pi0.5模型性能实测

本文介绍了如何在星图GPU平台上自动化部署Pi0 具身智能（内置模型版）v1镜像，赋能真实物理环境中的具身智能任务。该镜像可快速应用于工业产线上的柔性装配、桌面清理、物品整理等典型场景，显著提升机器人在非结构化环境中的自主操作能力与鲁棒性。

DIY飞跃计划

379人浏览 · 2026-02-11 00:34:47

DIY飞跃计划 · 2026-02-11 00:34:47 发布

Pi0具身智能v3效果对比：与Pi0.5模型性能实测

1. 真实世界里的“公开考场”来了

你有没有想过，当机器人走进真实厨房，面对歪斜的碗碟、皱巴巴的纸巾、晃动的塑料瓶，它还能不能稳稳完成任务？过去几年，我们看到太多炫目的演示视频——灯光完美、物体摆放整齐、动作行云流水。但那些视频里，机器人可能只在精心设计的“温室”里待过，一旦环境稍有变化，就容易手足无措。

2025年底，一个叫RoboChallenge的评测平台悄然上线，它像一位不讲情面的主考官，把所有模型拉进同一个真实物理世界里比拼。没有剪辑，没有重来，所有操作都在真实机械臂上执行，连光线、桌面反光、夹爪微小的抖动都算数。它用30个贴近生活的任务——插花、倒薯条、叠洗碗巾、按按钮、清理桌面——组成了一套标准化考卷。这套考卷不看谁的PPT更漂亮，只问一个问题：你的模型，真能在现实世界里靠自己活下来吗？

正是在这个“公开考场”里，Pi0.5曾长期霸榜，成为行业公认的标杆。它代表了当时开源具身智能的最高水位线：能理解复杂指令，能规划多步动作，在结构化环境中表现稳定。但它的局限也很真实——面对未见过的物体组合、突然出现的遮挡、或者需要连续纠错的任务时，成功率会明显下滑。这就像一个考试总拿高分的学生，一到真实工作场景里，反而要反复请教同事。

而就在2026年1月，这个榜单被改写了。不是靠某个闭源黑盒，也不是靠工程团队的幕后遥控，而是一个完全开源的模型，用可复现、可验证的方式，把分数实实在在地提了上去。这不是一次简单的升级，而是整个评测逻辑的一次转向：从比谁的演示更酷，转向比谁的基础能力更扎实。

2. 四项关键任务的现场回放

评测不是抽象的数字游戏，而是看得见、摸得着的动作。我们来看RoboChallenge榜单上最典型的四个任务，它们像四扇窗户，让我们看清模型在真实世界中的反应。

2.1 插花：纤细花枝与窄口花瓶的精准博弈

任务要求很简单：拿起一支带叶的花枝，调整方向让花头朝下，然后准确插入一个窄口花瓶中，并重复三次。

Pi0.5的表现是教科书式的“差一点”。它能稳稳抓起花枝，也能识别花瓶位置，但在最关键的最后一步——让纤细的花枝垂直穿过瓶口——它失败了。叶片挂住了夹爪边缘，导致花枝被平放在瓶口上，像一根搭在杯沿的吸管。这不是计算错误，而是对物理交互的预判不足：它没预料到叶片与夹爪之间会产生这种微小的钩挂力。

Spirit v1.5则完成了整套动作。它先用视觉判断花枝重心，再微调夹爪开合角度避开叶片，接着在移动过程中持续调整腕部姿态，确保花枝始终处于垂直状态。三支花全部成功插入，瓶口没有一丝晃动。这个过程没有“试错”，只有一次到位的决策流。

2.2 桌面清理：10个杂乱物体的分类挑战

桌面上随意散落着10个物品：两只小碗、透明塑料瓶、揉成一团的纸巾、士力架包装盒、还有几个不同材质的小物件。任务要求是把它们分门别类放进垃圾桶和整理箱。

Pi0.5在这里陷入了“死循环”。它顺利分拣出第一只碗、一个瓶子和一张纸巾，但随后就卡在了一个无法被夹起的纸盒上。夹爪反复尝试，每次都是空抓或滑脱，时间一分一秒过去，剩下的7个物品始终没被触碰。问题不在于识别，而在于策略僵化——它没有“换一种方式试试”的弹性。

Spirit v1.5则展现了真正的流程思维。它先处理易抓取的硬质物品，再转向柔性物体。对于那团皱纸巾，它没有强求整团拾取，而是先用夹爪边缘轻轻拨开，再抓住一角提起；对于纸盒，它调整了夹取角度，从侧面施加压力而非顶部下压。4分钟内，所有物品各归其位，两只小碗甚至被叠在一起放进箱子。这不是单点技术的胜利，而是整套感知-规划-执行闭环的流畅运转。

2.3 物品整理：叉子、胶带、刷子的连续搬运

任务要求依次拿起叉子、胶带和刷子，准确移动到整理箱上方，再松手放入。

Pi0.5在这里暴露了模块化架构的典型缺陷。它第一次抓取叉子时抓空了；第二次虽然抓起，但抬升高度不够，夹爪撞歪了整理箱；松手时叉子掉在箱子外面；第三次尝试又失败，叉子直接滑落到桌子底下。整个过程像三个独立的片段，彼此之间没有状态继承——前一次失败的经验，没有转化为下一次的改进。

Spirit v1.5则像一个有记忆的学徒。第一次抓叉子时，它记录下了桌面反光对视觉定位的干扰；第二次调整了摄像头焦距和夹爪接近角度；第三次不仅成功抓取，还提前计算了松手时机，确保叉子平稳落入箱中。胶带和刷子的搬运同样流畅，整个流程一气呵成，没有停顿，也没有重复失误。

2.4 倾倒薯条：双臂协同的物理直觉

这是一个双臂任务：一只机械臂固定住透明塑料盒，另一只掀开盒盖，然后将盒中薯条倾倒进一旁的盘子。

Pi0.5在第一步就止步。它无法判断盒盖的开启方向和所需力度，夹爪在盒盖边缘反复试探，最终放弃。这不是算力不足，而是缺乏对“盖子”这一物理对象的常识性理解——它没见过足够多的“需要掀开的盖子”。

Spirit v1.5则直接进入了操作状态。它用固定臂稳住盒子底部，同时用另一只臂的指尖传感器感知盒盖边缘的微小缝隙，然后施加一个旋转+上提的复合力。盒盖应声而开，薯条顺利倾倒。整个动作没有犹豫，仿佛它早已在无数个类似场景中练习过。

3. 数据背后的三个关键提升

RoboChallenge的榜单数字很直观：Spirit v1.5综合得分66.09，Pi0.5为58.72。但分数背后，是三个维度的实质性进步，它们共同构成了这次升级的骨架。

3.1 泛化能力：从“见过的”到“没见过的”

泛化能力不是玄学，它体现在一个具体指标上：新任务成功率。在RoboChallenge的30个任务中，有12个是评测方临时加入的“盲测题”，这些任务的物体组合、摆放方式、操作顺序，模型在训练阶段从未见过。

Pi0.5在这些盲测题上的平均成功率是38.2%。它能完成其中一些，但更多时候需要工程师手动干预或重置任务。Spirit v1.5则达到了52.6%。这个14个百分点的差距，意味着它不再依赖“背题”，而是真正具备了举一反三的能力。

这种提升的根源，在于训练数据的范式转变。Pi0.5依赖的是高度筛选的“干净数据”——每个动作都被精确录制，每个物体都摆放在最佳位置。而Spirit v1.5的训练数据来自开放式采集：操作员今天想教机器人清理厨房台面，就随机拿起容器、擦拭碎屑、整理餐具……所有动作在一个连续会话中自然发生。模型学到的不是100个标准动作，而是100种应对意外的思路。

3.2 长时序稳定性：从“单点精准”到“全程连贯”

很多模型能做好第一步，却在第十步崩溃。这是因为传统方法把长任务拆成多个短任务，每一步都重新规划，导致误差不断累积。Pi0.5在10步以上的任务中，成功率会下降近40%。

Spirit v1.5采用端到端VLA（视觉-语言-动作）架构，把整个任务当作一个统一序列来处理。它不是在“做A，然后做B，再做C”，而是在“完成一个目标”的大框架下，动态生成所有中间动作。这就像人做饭，不会把“切菜”、“炒菜”、“装盘”当成三个孤立事件，而是围绕“做出一盘菜”这个目标，随时调整手部动作和火候。

在“浇盆栽”任务中，这个优势尤为明显。Spirit v1.5需要先找到水壶，再判断水量，然后移动到植物旁，最后控制水流速度和方向。整个过程持续近90秒，它没有一次中断或重置，动作衔接如呼吸般自然。

3.3 计算效率：小身材，大能量

参数规模常被误认为是能力的唯一标尺。Pi0.5是一个参数量较大的模型，部署需要高端服务器。而Spirit v1.5选择了更务实的路径：4.2B参数，使其能在消费级显卡上运行，推理延迟控制在300ms以内。

这不是妥协，而是聚焦。它把算力预算花在了刀刃上——强化视觉-语言-动作的联合建模，而不是堆砌参数。结果是，在同等硬件条件下，它的任务完成速度比Pi0.5快1.7倍，且功耗降低35%。这意味着它不仅能跑在实验室的服务器上，也能嵌入到真实的工业机器人控制器里，真正走向落地。

4. 这次升级，到底改变了什么

回头看标题里的“Pi0具身智能v3”，其实是个有趣的误会。Pi0系列本身并没有发布v3版本，这次实测的主角，是Spirit v1.5这个全新的中国模型。它和Pi0.5的对比，不是同一产品线的迭代，而是两种技术哲学的正面交锋。

Pi0.5代表的是“自上而下”的精密工程：先定义理想世界，再训练模型去适应它。它强大，但边界清晰——一旦现实偏离预设，就需要人工介入。Spirit v1.5走的则是“自下而上”的演化路径：主动拥抱混乱，在真实世界的噪声中学习。它不追求在每一个已知任务上都做到满分，而是确保在绝大多数未知任务上，都能给出一个靠谱的解决方案。

这种差异，最终反映在应用逻辑上。Pi0.5更适合在结构化程度高的场景，比如特定产线上的单一工序；而Spirit v1.5正在宁德时代的动力电池PACK生产线上实际运行，那里来料位置有偏差、插接点位会变化、柔性线束的力度需要实时调节——它不是在完成一个任务，而是在应对一连串的不确定性。

所以，这次实测的意义，远不止于一个榜单名次的更替。它验证了一种可能性：具身智能的进化，不一定非要靠更大的模型、更多的数据、更强的算力。有时候，换一种看待世界的方式，就能走出一条更扎实的路。这条路的终点，不是能完成多少个演示任务，而是能让机器人真正成为我们工作和生活中的可靠伙伴——不是在温室里，而是在风雨中。

5. 总结

用下来感觉，这次升级最打动人的地方，不是那些亮眼的数字，而是它处理意外时的那种从容。Pi0.5像一个准备充分的考生，遇到考卷上的题目游刃有余，但一旦题目稍有变形，就会露出困惑的表情；Spirit v1.5则更像一个经验丰富的老师傅，工具可能不是最贵的，但面对各种突发状况，总能找到那个最顺手、最稳妥的解决办法。

它没有试图在所有维度上都碾压对手，而是在泛化能力、长时序稳定性和部署友好性这三个对真实应用最关键的地方，给出了更均衡的答案。如果你正考虑把具身智能引入自己的业务场景，与其纠结于理论峰值，不如先问问自己：我的环境够不够“乱”？我的任务够不够“长”？我的硬件够不够“实在”？答案如果偏向肯定，那么这次实测的结果，或许就是你需要的那个信号。