Key points are not available for this paper at this time.
لقد ثبت أن النماذج اللغوية الكبيرة (LLMs) قادرة على إجراء تخطيط رفيع المستوى لمهام الروبوتات طويلة الأفق، إلا أن الطرق الحالية تتطلب الوصول إلى مكتبة مهارات محددة مسبقًا (مثل الالتقاط، الوضع، السحب، الدفع، التنقل). ومع ذلك، فإن تخطيط LLM لا يعالج كيفية تصميم أو تعلم تلك السلوكيات، وهو ما يظل تحديًا خصوصًا في الإعدادات طويلة الأفق. علاوة على ذلك، للعديد من المهام المهمة، يحتاج الروبوت إلى القدرة على تعديل سلوكه بشكل دقيق، مما يتطلب من الوكيل أن يكون قادرًا على تعديل إجراءات التحكم منخفضة المستوى. هل يمكننا بدلاً من ذلك استخدام المعرفة على نطاق الإنترنت من LLMs لسياسات رفيعة المستوى، لتوجيه سياسات التعلم التعزيزي (RL) لحل مهام التحكم في الروبوتات عبر الإنترنت بكفاءة دون الحاجة إلى مجموعة مهارات محددة مسبقًا؟ في هذا البحث، نقترح Plan-Seq-Learn (PSL): نهج معياري يستخدم تخطيط الحركة لسد الفجوة بين اللغة المجردة والتحكم منخفض المستوى المتعلم لحل مهام الروبوتات طويلة الأفق من الصفر. نوضح أن PSL يحقق نتائج رائدة في أكثر من ٢٥ مهمة روبوتية تحديًا مع ما يصل إلى ١٠ مراحل. يحل PSL المهام طويلة الأفق من مدخلات بصرية خام تغطي أربع مجموعات تقييم بنسب نجاح تزيد عن ٨٥٪، متفوقًا على الطرق القائمة على اللغة، الكلاسيكية، والمتكاملة. نتائج الفيديو والكود متاحة على https://mihdalal.github.io/planseqlearn/
Building similarity graph...
Analyzing shared references across papers
Loading...
Murtaza Dalal
Tarun Chiruvolu
Devendra Singh Chaplot
Building similarity graph...
Analyzing shared references across papers
Loading...
درس دلال وآخرون (Thu,) هذا السؤال.
www.synapsesocial.com/papers/68e6bd25b6db64358763cf8a — DOI: https://doi.org/10.48550/arxiv.2405.01534
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: