Key points are not available for this paper at this time.
تتفوق نماذج اللغة التوليدية واسعة النطاق ونماذج اللغة-الرؤية (LLMs وVLMs) في التعلم القليل النماذج داخل السياق لاتخاذ القرار واتباع التعليمات. مع ذلك، فهي تحتاج إلى عروض توضيحية عالية الجودة لتضمينها في نافذة السياق الخاصة بها. في هذا العمل، نسأل: هل يمكن لـ LLMs وVLMs توليد أمثلة الطلب الخاصة بها من عروض توضيحية عامة وغير مثالية؟ نقترح التعلم التجريدي داخل السياق (ICAL)، وهي طريقة تبني ذاكرة من رؤى الخبرة متعددة الوسائط من عروض توضيحية غير مثالية وردود فعل بشرية. عند تقديم عرض توضيحي مزعج في مجال جديد، تلخص VLMs المسار إلى برنامج عام عن طريق تصحيح الإجراءات غير الفعالة وتعليق التجريدات المعرفية: علاقات المهام، تغييرات حالة الكائنات، الأهداف الفرعية الزمنية، وتأويلات المهام. تُنقح هذه التجريدات وتتكيف بشكل تفاعلي من خلال ردود الفعل البشرية أثناء محاولة الوكيل تنفيذ المسار في بيئة مماثلة. تعمل التجريدات الناتجة، عند استخدامها كأمثلة في الطلب، على تحسين اتخاذ القرار بشكل كبير في وكلاء LLM وVLM المعززين بالاسترجاع. يتفوق وكيل ICAL لدينا على أفضل ما هو موجود في متابعة التعليمات القائمة على الحوار في TEACh، والوكلاء متعدد الوسائط في VisualWebArena، وتوقعات الإجراءات في Ego4D. في TEACh، حققنا تحسناً بنسبة 12.6% في نجاح الشرط الهدف. في VisualWebArena، تحسن معدل نجاح المهمة لدينا من 14.3% إلى 22.7%. في توقعات الإجراءات في Ego4D، نتفوق على GPT-4V ذو التجارب القليلة ونظل منافسين للنماذج المشرفة. نُظهر أن تحسين ضبط وكيلنا المعزز بالاسترجاع يؤدي إلى تحسينات إضافية. تقلل طريقتنا بشكل كبير من الاعتماد على الأمثلة التي صنعها الخبراء وتتجاوز دائماً التعلم داخل السياق من خطط الإجراءات التي تفتقر إلى مثل هذه الرؤى.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gabriel Sarch
Lawrence Jang
Michael J. Tarr
Building similarity graph...
Analyzing shared references across papers
Loading...
درس سارش وزملاؤه (الخميس) هذا السؤال.
www.synapsesocial.com/papers/68e64050b6db6435875d22c3 — DOI: https://doi.org/10.48550/arxiv.2406.14596