触覚フィードバックは物理世界との効果的な相互作用に不可欠であると一般的に認識されています。しかし、最先端の視覚・言語・行動(VLA)モデルは触覚信号の解釈および利用能力を欠いており、接触が重要なタスクでの効果が制限されています。これらのシステムに触覚フィードバックを組み込むことは、大規模なマルチモーダルデータセットが存在しないため困難です。私たちは、基本のVLAを微調整せずに触覚センサーを用いてジェネラリストロボットポリシーを強化する方法であるVLA-Touchを提案します。本手法は二つの主要な革新をもちます:(1)高レベルのタスク計画のために意味的な触覚フィードバックを提供する事前学習済み触覚・言語モデルを活用するパイプライン、(2)接触の多い操作のために触覚信号でVLA生成アクションを洗練する拡散ベースのコントローラ。実世界実験を通じて、触覚フィードバックの二重レベル統合がタスク計画効率を向上させつつ実行精度を高めることを実証しました。コードはhttps://github.com/jxbi1010/VLA-Touchにてオープンソースです。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jianxin Bi
Kevin Ma
Ce Hao
Building similarity graph...
Analyzing shared references across papers
Loading...
Biら(Wed,)がこの課題を研究しました。
www.synapsesocial.com/papers/68e6679587ecc93a24d1757e — DOI: https://doi.org/10.48550/arxiv.2507.17294
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: