June 18, 2024Open Access

متجه سياقي قابل للتعلم للإجابة على الأسئلة البصرية

Key Points

Key points are not available for this paper at this time.

Abstract

مع استمرار نماذج اللغة في التوسع، أظهرت نماذج اللغة الكبيرة (LLMs) قدرات ناشئة في التعلم ضمن السياق (ICL)، مما مكنها من حل مهام اللغة عن طريق تقديم بعض العروض التوضيحية ضمن السياق (ICDs) كبادئة للسياق. مستوحى من هذه التطورات، قام الباحثون بتوسيع هذه التقنيات لتطوير نماذج متعددة الوسائط كبيرة (LMMs) بقدرات ICL. ومع ذلك، فإن تطبيق ICL عادة يواجه تحديين رئيسيين: 1) استخدام المزيد من ICDs يزيد بشكل كبير من وقت الاستنتاج و2) الأداء حساس لاختيار ICDs. تتفاقم هذه التحديات بشكل أكبر في LMMs بسبب دمج أنواع بيانات متعددة وتعقيد التوليف للـ ICDs متعددة الوسائط. مؤخرًا، لمواجهة هذه التحديات، قدمت بعض الدراسات في معالجة اللغات الطبيعية متجهات سياقية غير قابلة للتعلم (ICVs) التي تستخلص معلومات مهمة للمهمة من ICDs في متجه واحد ثم تُدرج في LLM لمساعدة في حل المهمة المقابلة. ومع ذلك، على الرغم من فائدتها في المهام البسيطة في NLP، تفشل هذه الطرق غير القابلة للتعلم في التعامل مع المهام المعقدة متعددة الوسائط مثل الإجابة على الأسئلة البصرية (VQA). في هذه الدراسة، نقترح متجه سياقي قابل للتعلم (L-ICV) لاستخلاص معلومات مهمة من العروض التوضيحية، مما يحسن أداء ICL في LMMs. تُظهر التجارب أن L-ICV يمكن أن يقلل بشكل كبير من التكاليف الحاسوبية مع تعزيز الدقة في مهام VQA مقارنة بـ ICL التقليدي وطرق ICV غير القابلة للتعلم الأخرى.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yingzhe Peng

Chenduo Hao

Xu Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

متجه سياقي قابل للتعلم للإجابة على الأسئلة البصرية

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider