《PolyTouch:一种基于触觉扩散策略的多模态触觉传感器》论文解读
MIT和丰田研究院团队开发了新型机器人触觉系统PolyTouch,结合触觉、听觉和周边视觉于一体,显著提升家庭机器人的精细操作能力。该系统采用耐用(寿命超35小时)、低成本(35美元/个)的传感器设计,并通过"触觉扩散策略"整合多模态信息。实验显示,在盛鸡蛋、水果分类等任务中,成功率比传统视觉方法提升13-34%,尤其在区分相似物体(如蓝莓/黑莓)时优势明显。该研究解决了家庭机

这篇文章来自 MIT 和丰田研究院的团队,还提名了 2025 年 ICRA(机器人领域顶会)的最佳论文,核心是解决 “家庭机器人灵巧操作” 的痛点 —— 比如机器人拿鸡蛋不碎、分清楚蓝莓和黑莓、拧扳手不打滑。下面咱们按照文章标题顺序,结合所有图片和表格,用大白话一步步讲明白。
目录
III. 机械设计与规格:PolyTouch 到底长啥样?怎么造的?
IV. 多模态传感机器人学习:怎么让机器人 “学会用触觉”?
摘要:核心是 “一个传感器 + 一套策略”
要让机器人在乱糟糟的家里干活(比如做饭、整理),光靠 “看”(视觉)和 “知道自己在哪”(本体感觉)不够:比如鸡蛋反光看不清、铲鸡蛋时力度没谱、水果长得像分不出来。所以团队做了两件事:

-
造了个叫 PolyTouch 的机器人手指:把 “触觉”(摸东西的细节)、“听觉”(摸东西的振动)、“周边视觉”(看手指周围环境)揉进一个小装置里,还特别耐用(比商用传感器寿命长 20 倍)、好做(不用专业设备)。
对应图 1 (a):左边这个手指就是 PolyTouch,三个小图标分别代表它的核心能力 —— 触觉(手指图标)、声学(声波图标)、周边视觉(小相机图标)。 -
练了套 “触觉扩散策略”:让机器人学人类演示时,不光用眼睛看、知道自己位置,还用上 PolyTouch 的触觉和振动信息,做动作更准。
对应图 1 (b):用 4 个常见双手机器人任务测试这个策略 ——“盛鸡蛋”“分水果”“敲鸡蛋”“插扳手”,都是家里可能用到的活儿。
I. 引言:为什么非要做 PolyTouch?
家庭机器人干活难,关键卡在 “和东西接触时没感觉”:
- 视觉不靠谱:比如鸡蛋透明反光、柜子挡住手指(遮挡)、水果长得太像(蓝莓 vs 黑莓);
- 得控制力度:比如握鸡蛋不能太用力(碎了)、铲鸡蛋得按紧铲子(不然滑了),这些光靠 “看” 判断不了。
之前的解决方案有问题:要么只有单一触觉(比如只能摸细节,抓不住快速振动),要么传感器不耐用(用几次就坏)、难造(得专业工厂)。所以团队想:不如把三种有用的 “感觉” 拼一起,再解决耐用和制造问题 —— 这就是 PolyTouch 的由来。
II. 相关工作:别人之前做过啥?
要突出 PolyTouch 的好,得先说说前辈们的不足,主要分三类:
1. 相机式触觉传感器(比如 GelSight)
靠 “软弹性体 + 相机” 工作:弹性体摸东西变形,相机拍变形来判断触感(比如纹理、形状)。优点是 “看得细”(高空间分辨率),但缺点致命:
- 慢:相机帧率低(通常<100Hz),抓不住快速振动(比如东西快滑了);
- 脆:弹性体容易磨破、分层(硅胶粘不住其他材料);
- 麻烦:做弹性体要专业设备,还特别笨重(为了装相机,体积大)。
2. 声学振动传感器(接触麦克风)
靠贴在机器人上的麦克风收振动(比如切菜时的声音、东西打滑的震动)。优点是 “反应快”(高时间频率),适合动态任务(比如切菜、拧螺丝),但只能测振动,没触觉细节和周边环境信息。
3. 多模态策略学习(扩散策略)
之前有团队用 “扩散模型” 让机器人学动作,能处理多模态信息(比如视觉 + 本体感觉),但没好好结合触觉和振动 —— 这正是本文要补的坑。
III. 机械设计与规格:PolyTouch 到底长啥样?怎么造的?
这部分是核心,咱们结合图 2(组件图)、图 3(爆炸图 + 成本)、图 4(光学模拟)和表格 I(规格表) 来讲,看完你就知道这传感器为啥厉害。
1. 核心组件:一个手指里塞了 “三种感觉器官”(图 2)

先看图 2,PolyTouch 的零件都标出来了,一个个说作用:
- 蓝色 LED(λ=450nm):给弹性体打光,让相机能拍清楚弹性体的变形;
- 触觉弹性体:和物体直接接触的 “皮肤”,有两种选择(表格 I 里的 “弹性体选项”):
- VHB 胶带:3M 的双面胶,表面撒反光铝粉,优点是 “好做”(新手 5 分钟搞定)、粘性强(不会和底座分层),缺点是有点 “粘”(变形后恢复慢);
- 硅胶:表面涂灰色硅胶墨水,优点是恢复快(动态任务好用),缺点是做起来稍麻烦;
- 相机:藏在手指里,一方面拍弹性体的变形(获取触觉细节),另一方面通过 “视觉窗口” 看手指周围(获取周边视觉,比如看有没有挡住);
- 接触麦克风:贴在手指背面,收接触时的振动(比如敲鸡蛋的 “咚咚声”、扳手插紧的 “咔嗒声”),这就是声学信息;
- 输出线(改造成 HDMI):把视频(触觉 + 周边视觉)和音频(振动)用以太网传出去,方便同步。
2. 怎么做到 “小而全”?靠一面弯曲的镜子(图 4)
相机要拍整个弹性体的变形,又不能让手指变粗 —— 团队加了弯曲镜子(图 4 里的 “Mirror”):

- 镜子的曲率和位置专门设计:让相机能 “透过镜子” 看到整个弹性体背面,还能保证 “看的角度正”(接近垂直),这样变形里的深度信息(比如压得有多深)不会乱;
- 对比前辈 GelSight:不用把相机放很远,所以 PolyTouch 体积小(表格 I 里尺寸 51mm×59mm×122mm,大概一个打火机大小)。
3. 又耐用又好造,还便宜(图 3 + 表格 I)

- 耐用性:表格 I 里写 “>35 小时连续使用”,怎么做到的?
- 用 VHB 胶带当弹性体:解决 “分层” 问题(硅胶容易和底座分开,VHB 自己粘得牢);
- 外层贴 3M Nextcare 胶带:像 “防护膜”,抗磨、抗扭,还不会皱(比之前用的伤口防护膜耐用多了);
- 弹性体可快速更换:滑出来就能换,不用拆整个手指(表格 I 里的 “弹性体更换”)。
- 好制造:看图 3(爆炸图),零件都是常见的(激光切割的亚克力板、普通相机、LED),不用专业设备:
- 做 VHB 弹性体:把胶带贴在亚克力板上,撒点铝粉,5 分钟搞定(新手也会);
- 成本:图 3右上角标了 “Unit Cost 35”,每个手指只要 35 美元,比商用传感器(比如 GelSight Mini)便宜多了。
IV. 多模态传感机器人学习:怎么让机器人 “学会用触觉”?
有了好传感器,还得教机器人怎么用这些信息。团队设计了 “触觉扩散策略”,核心是 “把所有感觉整合起来,再学动作”,对应图 5(网络结构图)。

咱们跟着图 5一步步看,像搭积木一样:
1. 第一步:给每种 “感觉” 编个 “密码”(模态编码)
机器人收到的信息有 5 种,得先转换成网络能懂的 “特征”:
- 触觉 + 周边视觉:从 PolyTouch 的相机来(RGB 图),用预训练的 “T3 编码器”(专门处理触觉图像的模型)编;
- 手腕相机 + 场景相机:看全局(比如桌子上的鸡蛋在哪),用 “CLIP 编码器”(平时用来给图片分类的模型,这里拿来提特征)编;
- 声学(振动):从接触麦克风来(声波),先转成 “log-mel 频谱”(像声音的 “指纹”),再用 “AST 编码器”(处理声音的模型)编;
- 本体感觉:机器人知道自己的关节位置、夹爪宽度,用 “MLP”(简单神经网络)编。
2. 第二步:把 “密码” 拼起来(模态组合器)
不同 “感觉” 的特征要融合好,关键是用 “交叉注意力”(图 5 里的 “Cross Attn”):
- 比如把 “触觉 + 周边视觉” 和 “场景视觉” 的特征对齐(比如触觉感觉到 “鸡蛋软”,对应场景里 “白色椭圆物体”),这样机器人知道 “摸的东西就是看的东西”;
- 再把其他特征(声学、本体感觉)拼过来,投影成一个统一的 “综合特征”。
3. 第三步:学动作(扩散策略)
把 “综合特征” 喂给 “扩散策略”(图 5 里的 “Diffusion Policy”):
- 扩散策略的优点是 “会处理复杂动作”(比如双手配合盛鸡蛋);
- 具体来说:看前 2 步的状态(观察历史 = 2),预测未来 16 步的动作,实际执行前 8 步 —— 保证动作连贯不卡顿。
硬件平台
为了收集数据和测试,团队用了两个 Franka Panda 机械臂(图 1 里的机器人),每个夹爪装两个手指:一个是 PolyTouch-VHB(负责 “摸”),一个是 3D 打印的柔顺手指(负责 “抓稳”);用 “空间鼠标”(6 个自由度)遥控机器人做动作,收集人类演示数据(比如人用鼠标控制机器人盛鸡蛋,机器人记下来学)。
V. 实验与讨论:PolyTouch 好用吗?
做了两个关键实验,结合图 6(耐用性测试)、图 7(失败模式)和表格 II(操作任务结果) 来说。
1. 实验 1:耐用性测试 —— 比商用传感器强多少?
对比 PolyTouch-VHB 和 “GelSight Mini”(常见商用触觉传感器):

- 测试方法:机器人夹着传感器,在塑料刮刀上连续摩擦、扭转(模拟家里用工具的场景),看多久坏。
- 结果(图 6):
- PolyTouch-VHB:撑了 35 小时,表面还清晰(图 6d);
- GelSight Mini:普通凝胶 1 小时就分层(掉下来),3.3 小时就掉漆;就算换了 PolyTouch 的硅胶,也只撑 25 小时(图 6c,表面掉漆)。
- 结论:PolyTouch 的耐用性是商用传感器的至少 10 倍(35÷3.3≈10),文章里说 “至少 20 倍” 是算上更差的商用凝胶(35÷1.75≈20)。
2. 实验 2:多模态操作测试 —— 用触觉真的更准吗?
测试 4 个任务(图 1b),对比 3 种机器人策略:

- baseline(visuo-proprio):只靠视觉 + 本体感觉,没有触觉和声学;
- multi-concate:用所有模态,但直接拼特征(没交叉注意力);
- multi-crossatn:本文方法(所有模态 + 交叉注意力)。
关键结果(表格 II)
挑重点任务说,数字越绿越好,越红越差:


- 盛鸡蛋(全数据):baseline 成功率 66%,本文方法 100%(绝对提升 34%)—— 意味着机器人再也不会把鸡蛋铲掉了;
- 水果分类:baseline 成功率 33%,本文方法 46%(提升 13%),尤其是区分蓝莓和黑莓(视觉几乎一样),本文方法成功率 80%,baseline 只有 20%—— 靠触觉摸纹理分清楚的;
- 插扳手:baseline 成功率 0%(完全插不进去),本文方法 18%—— 因为触觉能感觉到 “有没有对准孔”,不会用力过猛(图 7a);
- 敲鸡蛋:提升少(1%-3%)—— 因为敲鸡蛋主要靠视觉,触觉作用小,也说明触觉在需要 “精细接触” 的任务里更有用。
为什么 baseline 会失败?(图 7)
图 7 是 baseline(只视觉 + 本体)的典型失败,这些问题在本文方法里很少见:
- 图 7a:插扳手用力过猛 —— 没触觉,不知道 “已经碰到孔边缘”,一直压;
- 图 7b:盛鸡蛋铲的角度不够 —— 没周边视觉,看不到铲子和鸡蛋的相对位置;
- 图 7c:铲鸡蛋按压力度不够 —— 没触觉,不知道 “铲子没贴紧鸡蛋”,滑了;
- 图 7d:水果分类错 —— 没触觉,分不清蓝莓(光滑)和黑莓(有小颗粒)。
小发现:多模态需要多数据
如果训练数据少(比如盛鸡蛋只用 1/3 数据),本文方法的提升会变小(进度提升 7%,成功率还是 0%)—— 说明多模态信息要足够多的数据才能 “喂饱” 模型,但就算数据少,也比 baseline 好。
VI. 局限与未来工作
PolyTouch 不是完美的,有个小问题:
- VHB 弹性体有 “滞后性”:因为是粘性材料,变形后恢复慢,在快速动态任务里(比如快速抓球)可能判断不准;
- 解决办法:要么软件上优化(比如看前后帧的差异、用周边视觉核对),要么找新材料(又好做又不粘)。
VII. 结论
总结一下本文的贡献:
- 造了个 PolyTouch 传感器:多模态(触觉 + 声学 + 周边视觉)、耐用(>35 小时)、易制造(35 美元,5 分钟做弹性体)、体积小;
- 提了个 “触觉扩散策略”:结合多模态信息,比只靠视觉的策略准得多,尤其在需要精细接触的家庭任务里;
- 为家庭机器人铺路:让机器人 “摸得着、用得久”,以后可能真能帮家里做饭、整理了。
更多推荐




所有评论(0)