基于视觉-语言-动作(Vision-Language-Action, VLA)框架的人形机器人灵巧操作模型虽能生成稳定动作轨迹, 但在执行精细抓取时, 仍易因灵巧手的位姿与力控偏差而失败. 针对视觉单模态感知盲区与接触力控制不稳定的双重挑战, 本文提出引导式触觉多模态大模型框架(Guided Tactile Multimodal Framework, GTMF), 通过视触觉联合特征解码触觉阈值, 根据指尖触觉传感器信号, 实现对物体的精细抓取调整. 该方法基于VLA异构泛化能力, 利用引导式掩码注意力网络校准位姿, 并通过视觉-触觉特征跨模态对齐与解耦, 生成场景自适应的触觉阈值, 进而驱动灵巧手实时调整抓取角度, 实现精准闭环控制. 数据采集方面, 本文设计穿戴式视触觉同构数据采集模块, 实现人手触觉、执行器末端视觉与位姿数据的跨具身一体化采集与高效融合. 实验验证了本文方法的有效性, 仅凭视觉输入即可实现触觉生成并达到优于主流方法的抓取精度. 据知, 这是首个仅通过RGB图像解码生成触觉信号, 并用于实时抓取姿态调整的方法, 为VLA框架下灵巧抓取稳定性提供了新的技术路径.
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Sun,) studied this question.
www.synapsesocial.com/papers/69e1ce065cdc762e9d85725d — DOI: https://doi.org/10.1360/sst-2025-0312
Xuetao Li
Nengyuan Pan
Jifeng Xuan
Scientia Sinica Technologica
Building similarity graph...
Analyzing shared references across papers
Loading...