耶鲁开源技术：用摄像头让机器人柔性手“感知”力的新方式

机器人与物理世界交互时，力的感知必不可少，插拔、打磨这类接触式任务需要它，高级人机交互和物理推理也离不开它，但传统方案总有短板：高精度力/扭矩传感器贵、笨重，还容易因撞击损坏；集成式指尖触觉传感器布线复杂、易磨损，只能提供局部信息。

近年来，视触觉传感技术给出新思路——用视觉信号推断触觉信息，可不少方案要么在传感器内部嵌标记点，要么需要定制传感皮肤，不够简洁，成本也没降下来，耶鲁大学团队在《Science Robotics》发表的“Forces for Free”（F3）研究，给出了更吸引人的答案。

物理媒介：为“被看见”优化的F3柔性手

要通过视觉感知力，得有个受力时能产生稳定、可观测形变的物理媒介，研究团队没随便选柔性手，而是在耶鲁开源T42手爪基础上深度优化，做出了F3（Forces-for-Free）Gripper，优化目标很明确：提升基于视觉的力估算信噪比，从两个角度入手。

一是最大化运动学可操纵性，传统柔性手在某些姿态下可能接近“奇异构型”，这时就算力变化很大，外观也几乎不变，力没法被识别，团队优化手指的连杆长度比和静止角度，让它在工作区间内远离奇异点，确保任何方向的力都能引起足够大的视觉形变，这种优化基于对运动学矩阵的分析，目的是最大化可操纵性度量。

二是最小化摩擦与迟滞，缆绳驱动的柔性手普遍有摩擦和迟滞效应，这会导致“部分可观察性”——相同手指形态可能对应不同力值，F3手爪把所有缆绳路径上的金属销钉换成微型滚珠轴承，优化布线减少接触角，内部摩擦力从约4.0N降到0.6N，为更精确的力估算打下物理基础。

计算核心：带时序记忆与视觉焦点的估算器

有了好的物理媒介，接下来要解决的是怎么从图像序列中解码出精确的力信息，耶鲁团队构建了一个深度学习估算器。

为应对“部分可观察性”，团队引入时间记忆，残余摩擦和迟滞效应会带来模糊性，所以模型不处理单帧图像，而是输入一段包含近期运动历史的图像序列（比如20帧，采样频率1Hz），模型用CNN-Transformer架构，CNN提取每帧图像的空间特征，Transformer捕捉这些特征在时间维度上的内在关联，这种对时空信息的综合处理，能让模型根据历史运动趋势推断当前最可能的力状态，缓解“同形不同力”问题，消融实验显示，20帧的记忆长度性能最佳。

为应对视觉干扰，团队用了视觉基础模型SAM（Segment Anything Model），真实场景中，背景和被抓物会严重干扰识别，团队仅通过少量标注数据微调SAM，就能稳健地把手爪从复杂视觉环境中分割出来，这相当于给估算器加了“滤镜”，让它只关注手爪本身的形变，对背景和物体变化更鲁棒，另外，训练中引入随机遮挡的数据增强，模型还能抵抗真实世界中常见的部分遮挡。

实验验证：从0.2N精度到闭环动态控制

一系列严苛实验验证了该系统的有效性，对新物体的静态力预测中，误差在0.2N到0.4N之间，远高于先前相关工作约1.6N的误差，性能突出。

估算器还被成功放入控制环路，完成了三项复杂动态任务。

小孔插销任务中，机器人通过感知接触力，完成探测、对准和插入一系列动作，曲面擦拭时，能维持1N的恒定法向力，在不平整表面上操作，书法写作任务里，通过实时调整下压力控制毛笔笔画粗细，完成汉字书写，这些任务中，系统精度和鲁棒性都很好，平均力误差低至0.15N左右，这说明没有额外传感器，系统也能完成需要精细力控的任务。

意义与未来

耶鲁这项研究为低成本机器人力感知提供了优雅又实用的方案，它不只是巧妙的工程实现，更提出了有潜力的“Forces for Free”新范式，证明不增加额外硬件，只通过算法和优化现有组件（柔性手），能解锁高质量的力感知能力，重新定义了视触觉传感的成本效益边界，这也是“Free”的核心，此外，系统提供了从硬件优化（F3手爪）到算法设计（时序模型与SAM）再到实验验证的整套开源解决方案，降低了其他研究者的使用门槛。

目前系统主要处理二维力，响应速度（10Hz）赶不上商业F/T传感器，不适合碰撞检测等高速场景，但为大量接触式操作任务提供了足够精确、鲁棒且几乎“免费”的力反馈。

未来，这一范式有望扩展到三维力/力矩估算、多指灵巧手，还能通过多视角相机解决更复杂的遮挡问题，这项工作会推动先进力控技术在更多机器人平台（尤其是低成本平台）上普及应用。

论文原文可查看：https://www.science.org/doi/10.1126/scirobotics.adq5046