Key points are not available for this paper at this time.
بينما أظهرت نماذج الرؤية واللغة الكبيرة (LVLMs) قدرات ملحوظة عبر مجموعة واسعة من المهام، إلا أنها تعاني من مشاكل الهلوسة، حيث تولد النماذج إجابات مقنعة لكنها غير صحيحة عند إعطائها زوج صورة-استعلام. وتكون ظاهرة الهلوسة هذه أكثر حدة عند الاستعلام عن الصورة بلغات غير الإنجليزية، في حين أن الطرق الحالية للتقليل من الهلوسات في LVLMs تركز فقط على السيناريوهات الإنجليزية. في هذه الورقة، نقوم بالمحاولة الأولى للتقليل من هذه الهلوسة متعددة اللغات المهمة في LVLMs. ومن خلال تحليل تجريبي شامل، وجدنا أن الهلوسة متعددة اللغات في LVLMs هي مشكلة نظامية يمكن أن تنشأ من نقص في القدرات متعددة اللغات أو القدرات متعددة الوسائط غير الكافية. ولهذا الغرض، نقترح إطار عمل من مرحلتين لإزالة الهلوسة متعددة اللغات (MHR) لـLVLMs، بهدف تحسين المقاومة ضد الهلوسة لكل من اللغات ذات الموارد العالية والمنخفضة. بدلاً من الاعتماد على التعليقات اليدوية المعقدة للموارد متعددة اللغات، نستفيد بالكامل من القدرات الكامنة في LVLM ونقترح طريقة جديدة للمحاذاة عبر اللغات، التي تولد ردودًا متعددة لكل إدخال صورة-استعلام ثم تحدد أزواج الوعي بالهلوسة لكل لغة. تُستخدم هذه الأزواج في النهاية لتحسين التفضيل المباشر لتحفيز LVLMs على تفضيل الردود الخالية من الهلوسة. تظهر النتائج التجريبية أن MHR الخاص بنا يحقق تقليلًا كبيرًا في توليد الهلوسة في LVLMs. وبشكل ملحوظ، على معيار POPE متعدد اللغات الموسع الخاص بنا، يحقق إطار العمل زيادة متوسطة قدرها 19.0% في الدقة عبر 13 لغة مختلفة. رمزنا وأوزان نماذجنا متاحة على https://github.com/ssmisya/MHR
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaoye Qu
Mingyang Song
Wei Wei
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Qu وزملاؤه (Thu,) هذا السؤال.
www.synapsesocial.com/papers/68e5dfcbb6db643587573dad — DOI: https://doi.org/10.48550/arxiv.2408.00550
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: