What type of study is this?

This is a Quantitative Study study.

September 24, 2025Open Access

كيف تحل نماذج اللغة الكبيرة متعددة الوسائط مهام الصور: نظرة على التأسيس البصري، استدلال المهام، وترميز الإجابة

Key Points

تُظهر التحليلات مراحل معالجة متميزة في MLLMs، مع تركيز الطبقات المبكرة على التأسيس البصري.
يكشف الفحص الطبقي أن الطبقات الوسطى حاسمة للاستدلال الدلالي والتكامل اللفظي.
تشير النتائج إلى أن وظائف الطبقات يمكن أن تتغير استنادًا إلى اختلافات في معمارية LLM وبيانات التدريب.
تشير نتائج LLaVA-1.5 وQwen2-VL إلى نهج منظم لتحليل ديناميكيات التمثيل متعدد الوسائط.

Abstract

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) أداءً قويًا عبر مجموعة واسعة من مهام الرؤية واللغة، إلا أن ديناميكيات معالجتها الداخلية لا تزال غير مستكشفة بشكل كافٍ. في هذا العمل، نقدم إطارًا تحليليًا منهجيًا لدراسة كيفية معالجة MLLMs للمدخلات البصرية والنصية عبر الطبقات المختلفة. نقوم بتدريب مصنفات خطية للتنبؤ بفئات بصرية دقيقة (مثل سلالات الكلاب) من تمثيلات الرموز المستخرجة من كل طبقة، باستخدام سؤال مرجعي موحد. لكشف الأدوار الوظيفية للطبقات المختلفة، نقوم بتقييم هذه الاستقصاءات تحت ثلاثة أنواع من تغييرات المدخلات المسيطر عليها: (1) متغيرات لفظية تختبر الحساسية للتغيرات السطحية، (2) متغيرات نفي دلالية تقلب الإجابة المتوقعة بتعديل المفهوم البصري في المدخل، و(3) متغيرات تنسيق المخرجات التي تحافظ على الاستدلال ولكن تغير شكل الإجابة. عند تطبيق إطارنا على نماذج LLaVA-1.5، LLaVA-Next-LLaMA-3، وQwen2-VL، وجدنا هيكلًا مرحليا ثابتًا حيث تقوم الطبقات المبكرة بالتأسيس البصري، وتدعم الطبقات الوسطى التكامل اللفظي والاستدلال الدلالي، بينما تحضر الطبقات النهائية مخرجات خاصة بالمهمة. نُظهر أيضًا أنه بينما يبقى الهيكل المرحلي العام مستقرًا عبر تغييرات في ترميز الرموز البصرية، وبيانات ضبط التعليمات، وبيانات التدريب الأولية، فإن تخصيص الطبقات لكل مرحلة يتغير بشكل ملحوظ تبعًا لاختلاف معماريات LLM الأساسية. توفر نتائجنا منظورًا موحدًا لتنظيم الطبقات في MLLMs وتقدم نهجًا خفيف الوزن وغير معتمد على نموذج لتحليل ديناميكيات التمثيل متعدد الوسائط.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhuoran Yu

Yong Jae Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

كيف تحل نماذج اللغة الكبيرة متعددة الوسائط مهام الصور: نظرة على التأسيس البصري، استدلال المهام، وترميز الإجابة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider