August 1, 2024Open Access

التقليل من الهلوسة متعددة اللغات في نماذج الرؤية واللغة الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

بينما أظهرت نماذج الرؤية واللغة الكبيرة (LVLMs) قدرات ملحوظة عبر مجموعة واسعة من المهام، إلا أنها تعاني من مشاكل الهلوسة، حيث تولد النماذج إجابات مقنعة لكنها غير صحيحة عند إعطائها زوج صورة-استعلام. وتكون ظاهرة الهلوسة هذه أكثر حدة عند الاستعلام عن الصورة بلغات غير الإنجليزية، في حين أن الطرق الحالية للتقليل من الهلوسات في LVLMs تركز فقط على السيناريوهات الإنجليزية. في هذه الورقة، نقوم بالمحاولة الأولى للتقليل من هذه الهلوسة متعددة اللغات المهمة في LVLMs. ومن خلال تحليل تجريبي شامل، وجدنا أن الهلوسة متعددة اللغات في LVLMs هي مشكلة نظامية يمكن أن تنشأ من نقص في القدرات متعددة اللغات أو القدرات متعددة الوسائط غير الكافية. ولهذا الغرض، نقترح إطار عمل من مرحلتين لإزالة الهلوسة متعددة اللغات (MHR) لـLVLMs، بهدف تحسين المقاومة ضد الهلوسة لكل من اللغات ذات الموارد العالية والمنخفضة. بدلاً من الاعتماد على التعليقات اليدوية المعقدة للموارد متعددة اللغات، نستفيد بالكامل من القدرات الكامنة في LVLM ونقترح طريقة جديدة للمحاذاة عبر اللغات، التي تولد ردودًا متعددة لكل إدخال صورة-استعلام ثم تحدد أزواج الوعي بالهلوسة لكل لغة. تُستخدم هذه الأزواج في النهاية لتحسين التفضيل المباشر لتحفيز LVLMs على تفضيل الردود الخالية من الهلوسة. تظهر النتائج التجريبية أن MHR الخاص بنا يحقق تقليلًا كبيرًا في توليد الهلوسة في LVLMs. وبشكل ملحوظ، على معيار POPE متعدد اللغات الموسع الخاص بنا، يحقق إطار العمل زيادة متوسطة قدرها 19.0% في الدقة عبر 13 لغة مختلفة. رمزنا وأوزان نماذجنا متاحة على https://github.com/ssmisya/MHR

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiaoye Qu

Mingyang Song

Wei Wei

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

التقليل من الهلوسة متعددة اللغات في نماذج الرؤية واللغة الكبيرة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider