يمكن لعوامل التعلم التعزيزي (RL) أن تتعلم حل مهام معقدة من المدخلات البصرية، لكن تعميم هذه المهارات المكتسبة على بيئات جديدة لا يزال يمثل تحديًا كبيرًا في تطبيقات التعلم التعزيزي، خاصة في الروبوتات. بينما يمكن أن يحسن تعزيز البيانات التعميم، فإنه غالبًا ما يضر بكفاءة العينات واستقرار التدريب. تقدم هذه الورقة إطار عمل DeGuV، وهو إطار تعليم تعزيزي يعزز كلًا من التعميم وكفاءة العينات. على وجه الخصوص، نستخدم شبكة قناع قابلة للتعلم تنتج قناعًا من مدخل العمق، تحافظ فقط على المعلومات البصرية الأساسية وتتجاهل البكسلات غير ذات الصلة. من خلال ذلك، نضمن أن تركّز عوامل التعلم التعزيزي لدينا على الميزات الأساسية، مما يحسن من المتانة تحت تعزيز البيانات. بالإضافة إلى ذلك، ندمج التعلم التبايني ونثبت تقدير قيم Q تحت التعزيز لتعزيز كفاءة العينات واستقرار التدريب بشكل أكبر. نقيم طريقتنا المقترحة على معيار RL-ViGen باستخدام روبوت Franka Emika ونظهر فعاليتها في النقل من المحاكاة إلى الواقع بدون تدريب مسبق. تظهر نتائجنا أن DeGuV يتفوق على الطرق الحديثة في كل من التعميم وكفاءة العينات، كما يحسن قابلية التفسير من خلال إبراز المناطق الأكثر صلة في المدخل البصري.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tien Pham
Xintian Chi
Khang Nguyen
Building similarity graph...
Analyzing shared references across papers
Loading...
درس فام وآخرون (Fri,) هذا السؤال.
www.synapsesocial.com/papers/68e02f46f0e39f13e7fa2de1 — DOI: https://doi.org/10.48550/arxiv.2509.04970
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: