May 2, 2024Open Access

Plan-Seq-Learn: نموذج لغة موجه للتعلم التعزيزي لحل مهام الروبوتات طويلة الأفق

Key Points

Key points are not available for this paper at this time.

Abstract

لقد ثبت أن النماذج اللغوية الكبيرة (LLMs) قادرة على إجراء تخطيط رفيع المستوى لمهام الروبوتات طويلة الأفق، إلا أن الطرق الحالية تتطلب الوصول إلى مكتبة مهارات محددة مسبقًا (مثل الالتقاط، الوضع، السحب، الدفع، التنقل). ومع ذلك، فإن تخطيط LLM لا يعالج كيفية تصميم أو تعلم تلك السلوكيات، وهو ما يظل تحديًا خصوصًا في الإعدادات طويلة الأفق. علاوة على ذلك، للعديد من المهام المهمة، يحتاج الروبوت إلى القدرة على تعديل سلوكه بشكل دقيق، مما يتطلب من الوكيل أن يكون قادرًا على تعديل إجراءات التحكم منخفضة المستوى. هل يمكننا بدلاً من ذلك استخدام المعرفة على نطاق الإنترنت من LLMs لسياسات رفيعة المستوى، لتوجيه سياسات التعلم التعزيزي (RL) لحل مهام التحكم في الروبوتات عبر الإنترنت بكفاءة دون الحاجة إلى مجموعة مهارات محددة مسبقًا؟ في هذا البحث، نقترح Plan-Seq-Learn (PSL): نهج معياري يستخدم تخطيط الحركة لسد الفجوة بين اللغة المجردة والتحكم منخفض المستوى المتعلم لحل مهام الروبوتات طويلة الأفق من الصفر. نوضح أن PSL يحقق نتائج رائدة في أكثر من ٢٥ مهمة روبوتية تحديًا مع ما يصل إلى ١٠ مراحل. يحل PSL المهام طويلة الأفق من مدخلات بصرية خام تغطي أربع مجموعات تقييم بنسب نجاح تزيد عن ٨٥٪، متفوقًا على الطرق القائمة على اللغة، الكلاسيكية، والمتكاملة. نتائج الفيديو والكود متاحة على https://mihdalal.github.io/planseqlearn/

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Murtaza Dalal

Tarun Chiruvolu

Devendra Singh Chaplot

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Plan-Seq-Learn: نموذج لغة موجه للتعلم التعزيزي لحل مهام الروبوتات طويلة الأفق

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider