操纵能力更强的触觉基础模型AnyTouch 2上线了!
信息来源:人大高瓴人工智能学院 发布日期:2026年2月13日
引言
当人类用双手感知世界时,我们获得的信息从来不只是“这是什么”,还包括接触过程中不断演化的物理线索:滑动时的阻力变化、旋转带来的摩擦特性、施力下的形变反馈,以及打滑前那一瞬间的细微征兆。随着高分辨率光学触觉传感器的快速发展,机器人第一次具备了像“看视频”一样细致地捕捉这类触觉变化的能力。然而,一个关键问题随之浮现:我们是否真的拥有合适的数据与模型,来支持这场“动态触觉”的变革?
来自人大GeWu-Lab实验室、智源、北交、北邮、自动化所、北大和上海AILab的合作研究系统性地回答了这个问题,并提出了一个全面而面向未来的解决方案:一个全新的数据生态,一个更加全面与“动态”的数据集ToucHD,和一个更加通用的模型AnyTouch 2。论文已被ICLR 2026接收,在初审中获得3个8分,并已对数据集、模型和代码进行了开源。
项目主页:https://gewu-lab.github.io/AnyTouch2/
代码仓库:https://github.com/GeWu-Lab/AnyTouch2
数据集下载:https://huggingface.co/collections/BAAI/touchd
论文链接:http://arxiv.org/abs/2602.09617
触觉动态金字塔:
为动态触觉感知建立统一数据体系
图1 触觉动态金字塔与ToucHD数据集
要真正支撑动态触觉感知,仅依赖更高分辨率的传感器仍然是不够的。更核心的挑战在于:我们究竟应当采集什么样的触觉数据,又该如何系统性地组织这些数据?在现有的光学触觉研究中,触觉信号更多被用于回答“这是什么”,研究重点主要集中在材料等物体属性层面的感知;而对于接触过程中“如何发生变化”、触觉信号如何不断演化的动态信息,尚缺乏系统性的刻画与组织。这种关注重心的差异,使得现有数据难以支撑更高层级的动态触觉理解与精细操纵任务。
基于上述观察,我们提出了触觉动态金字塔(Tactile Dynamic Pyramid),从触觉交互的动态复杂度出发,对触觉感知能力进行层级化建模,并以此为基础构建统一的数据组织框架。其将触觉数据划分为五个层级:
· Tier 5:静态属性(仅按压,识别材质与硬度);
· Tier 4:随机动作(简单滑动或旋转,捕捉基础表面动态);
· Tier 3:特定动作(结构化的滑动、旋转,支持动作语义理解);
· Tier 2:操纵数据(真实任务中的触觉变化,支撑复杂操纵);
· Tier 1:力数据(触觉与力的配对,揭示物理规律与精细操控能力)。
随着层级的提升,触觉感知不再仅仅回答“物体是什么”,而逐步转向刻画“接触如何发生、如何演化、又如何影响操纵结果”。然而,现有的大规模光学触觉数据集主要为低层级数据,难以支撑更高层级的动态感知能力。
ToucHD:全面的分层动态触觉数据集
在触觉动态金字塔的指导下,为了填补高层级动态触觉数据的空白,我们构建了一个全新的大规模数据集——ToucHD(Tactile Hierarchical Dynamic Dataset)。这是目前动态性丰富程度、传感器类型多样性、数据规模均表现出显著优势的光学触觉数据集。ToucHD专注于高层级、稀缺且关键的动态触觉信息,整体包含超过240 万帧触觉动态接触数据,并形成一个分层数据体系:
仿真原子动作数据
系统覆盖滑动、旋转等结构化动作(Tier 3)
真实世界操纵数据
来自真实操纵任务的连续触觉反馈(Tier 2)
触觉–力配对数据
将高分辨率触觉变化与三维接触力直接对齐(Tier 1)
这些数据横跨多种主流光学触觉传感器、大量不同物体与多类交互方式,填补了动态触觉数据生态中的空白,为动态触觉研究提供了系统性的广度与深度支持。ToucHD 不只是一个数据集,更是一套面向未来触觉研究的基础设施。
AnyTouch 2:
一个真正“理解动态触觉”的通用模型
图2 AnyTouch 2模型
基于更加完整的动态触觉数据生态,我们进一步提出了 AnyTouch 2 ——一个面向多传感器、跨任务、支持操纵的通用触觉表征学习框架。AnyTouch 2 不再只关注“看清一帧触觉图像”,而是从三个层面系统建模触觉动态:
· 像素级动态细节:通过接触帧和帧差重建捕捉微小而关键的时序形变
· 语义级动态理解:跨传感器理解不同物体、不同动作所对应的触觉模式
· 物理级力学建模:具备预测接触力及其变化趋势的能力
通过多层次动态增强模块,AnyTouch 2 将属性理解、动作感知与物理推理统一在一个共享表征空间中,真正实现“从触觉信号到物理交互”的建模。
从基准测试到真实操纵:
动态感知能力全面验证
我们设计了4个不同难度、属于金字塔不同层级的真实世界操纵任务来全面地评估各触觉模型是否拥有支持不同操纵任务的感知能力:触觉抓取(Tier 5)、擦白板(Tier 4 & 3)、USB插入(Tier 2)和薯片移动(Tier 1)。
如图3所示,AnyTouch 2在各个操纵任务上均优于现有方法,尤其是难度更高的高层级操纵任务。
图3 真实世界操纵任务评估结果
如表1所示,在离线基准任务中,AnyTouch 2 在动态属性预测、力感知、精细操纵任务上均显著超越现有方法。
表1 离线基准触觉感知任务评估结果
总结
本文针对光学触觉关键的动态感知问题,提出了一个全面而系统的解决方案。我们相信,真正的具身智能,必须建立在对物理交互过程的深刻理解之上。ToucHD 提供了数据基础,AnyTouch 2 给出了一种模型路径,而触觉动态金字塔则提供了一种全新的思考方式。触觉,正在从“静态理解”走向“动态感知”。或许这正是机器人真正走进物理世界的关键一步。
Copyright ©2016 中国人民大学科学技术发展部 版权所有
地址:北京市海淀区中关村大街59号中国人民大学明德主楼1121B 邮编:100872
电话:010-62513381 传真:010-62514955 电子邮箱: ligongchu@ruc.edu.cn
京公网安备110402430004号