تم إحراز تقدم كبير في نماذج الرؤية-اللغة. ومع ذلك، لا يزال التلاعب الروبوتي المشروط باللغة للمهام الغنية بالاتصال غير مستكشف بشكل كافٍ، لا سيما من حيث استشعار اللمس. لمعالجة هذه الفجوة، نقدم نموذج اللمس-اللغة-العمل (TLA)، الذي يعالج بشكل فعال التغذية الراجعة اللمسية المتسلسلة عبر تأصيل متعدد الوسائط للغة لتمكين توليد سياسات قوية في السيناريوهات التي تتطلب اتصالًا مكثفًا. بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات شاملة تحتوي على 24 ألف زوج من بيانات تعليمات عمل لمسية، مخصصة لتجميع الأوتاد باستخدام الأطراف، مما يوفر موارد أساسية لتدريب وتقييم نموذج TLA. تظهر نتائجنا أن TLA يتفوق بشكل كبير على طرق التعلم بالمحاكاة التقليدية (مثل سياسة الانتشار) من حيث توليد الأفعال الفعالة ودقة الأفعال، مع إظهار قدرات تعميم قوية من خلال تحقيق معدل نجاح يزيد عن 85% على تركيبات التجميع والأنماط الجديدة للأوتاد التي لم تُرَ سابقًا. نطلق جميع البيانات والكود علنًا على أمل تعزيز البحث في تعلم مهارات التلاعب الحسي المشروطة باللغة. موقع المشروع: https://sites.google.com/view/tactile-language-action/
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Peng
Chaofan Zhang
Dingzhe Li
Building similarity graph...
Analyzing shared references across papers
Loading...
درس بينغ وآخرون (الثلاثاء) هذا السؤال.
www.synapsesocial.com/papers/68da58c9c1728099cfd10ad4 — DOI: https://doi.org/10.48550/arxiv.2503.08548
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: