耶鲁开源技术:用摄像头让机器人柔性手“感知”力的新方式

机器人与物理世界交互时,力的感知必不可少,插拔、打磨这类接触式任务需要它,高级人机交互和物理推理也离不开它,但传统方案总有短板:高精度力/扭矩传感器贵、笨重,还容易因撞击损坏;集成式指尖触觉传感器布线复杂、易磨损,只能提供局部信息。

近年来,视触觉传感技术给出新思路——用视觉信号推断触觉信息,可不少方案要么在传感器内部嵌标记点,要么需要定制传感皮肤,不够简洁,成本也没降下来,耶鲁大学团队在《Science Robotics》发表的“Forces for Free”(F3)研究,给出了更吸引人的答案。

物理媒介:为“被看见”优化的F3柔性手

要通过视觉感知力,得有个受力时能产生稳定、可观测形变的物理媒介,研究团队没随便选柔性手,而是在耶鲁开源T42手爪基础上深度优化,做出了F3(Forces-for-Free)Gripper,优化目标很明确:提升基于视觉的力估算信噪比,从两个角度入手。

一是最大化运动学可操纵性,传统柔性手在某些姿态下可能接近“奇异构型”,这时就算力变化很大,外观也几乎不变,力没法被识别,团队优化手指的连杆长度比和静止角度,让它在工作区间内远离奇异点,确保任何方向的力都能引起足够大的视觉形变,这种优化基于对运动学矩阵的分析,目的是最大化可操纵性度量。

二是最小化摩擦与迟滞,缆绳驱动的柔性手普遍有摩擦和迟滞效应,这会导致“部分可观察性”——相同手指形态可能对应不同力值,F3手爪把所有缆绳路径上的金属销钉换成微型滚珠轴承,优化布线减少接触角,内部摩擦力从约4.0N降到0.6N,为更精确的力估算打下物理基础。

计算核心:带时序记忆与视觉焦点的估算器

有了好的物理媒介,接下来要解决的是怎么从图像序列中解码出精确的力信息,耶鲁团队构建了一个深度学习估算器。

为应对“部分可观察性”,团队引入时间记忆,残余摩擦和迟滞效应会带来模糊性,所以模型不处理单帧图像,而是输入一段包含近期运动历史的图像序列(比如20帧,采样频率1Hz),模型用CNN-Transformer架构,CNN提取每帧图像的空间特征,Transformer捕捉这些特征在时间维度上的内在关联,这种对时空信息的综合处理,能让模型根据历史运动趋势推断当前最可能的力状态,缓解“同形不同力”问题,消融实验显示,20帧的记忆长度性能最佳。

为应对视觉干扰,团队用了视觉基础模型SAM(Segment Anything Model),真实场景中,背景和被抓物会严重干扰识别,团队仅通过少量标注数据微调SAM,就能稳健地把手爪从复杂视觉环境中分割出来,这相当于给估算器加了“滤镜”,让它只关注手爪本身的形变,对背景和物体变化更鲁棒,另外,训练中引入随机遮挡的数据增强,模型还能抵抗真实世界中常见的部分遮挡。

实验验证:从0.2N精度到闭环动态控制

一系列严苛实验验证了该系统的有效性,对新物体的静态力预测中,误差在0.2N到0.4N之间,远高于先前相关工作约1.6N的误差,性能突出。

估算器还被成功放入控制环路,完成了三项复杂动态任务。

小孔插销任务中,机器人通过感知接触力,完成探测、对准和插入一系列动作,曲面擦拭时,能维持1N的恒定法向力,在不平整表面上操作,书法写作任务里,通过实时调整下压力控制毛笔笔画粗细,完成汉字书写,这些任务中,系统精度和鲁棒性都很好,平均力误差低至0.15N左右,这说明没有额外传感器,系统也能完成需要精细力控的任务。

意义与未来

耶鲁这项研究为低成本机器人力感知提供了优雅又实用的方案,它不只是巧妙的工程实现,更提出了有潜力的“Forces for Free”新范式,证明不增加额外硬件,只通过算法和优化现有组件(柔性手),能解锁高质量的力感知能力,重新定义了视触觉传感的成本效益边界,这也是“Free”的核心,此外,系统提供了从硬件优化(F3手爪)到算法设计(时序模型与SAM)再到实验验证的整套开源解决方案,降低了其他研究者的使用门槛。

目前系统主要处理二维力,响应速度(10Hz)赶不上商业F/T传感器,不适合碰撞检测等高速场景,但为大量接触式操作任务提供了足够精确、鲁棒且几乎“免费”的力反馈。

未来,这一范式有望扩展到三维力/力矩估算、多指灵巧手,还能通过多视角相机解决更复杂的遮挡问题,这项工作会推动先进力控技术在更多机器人平台(尤其是低成本平台)上普及应用。

论文原文可查看:https://www.science.org/doi/10.1126/scirobotics.adq5046

我的笔记