أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) أداءً قويًا عبر مجموعة واسعة من مهام الرؤية واللغة، إلا أن ديناميكيات معالجتها الداخلية لا تزال غير مستكشفة بشكل كافٍ. في هذا العمل، نقدم إطارًا تحليليًا منهجيًا لدراسة كيفية معالجة MLLMs للمدخلات البصرية والنصية عبر الطبقات المختلفة. نقوم بتدريب مصنفات خطية للتنبؤ بفئات بصرية دقيقة (مثل سلالات الكلاب) من تمثيلات الرموز المستخرجة من كل طبقة، باستخدام سؤال مرجعي موحد. لكشف الأدوار الوظيفية للطبقات المختلفة، نقوم بتقييم هذه الاستقصاءات تحت ثلاثة أنواع من تغييرات المدخلات المسيطر عليها: (1) متغيرات لفظية تختبر الحساسية للتغيرات السطحية، (2) متغيرات نفي دلالية تقلب الإجابة المتوقعة بتعديل المفهوم البصري في المدخل، و(3) متغيرات تنسيق المخرجات التي تحافظ على الاستدلال ولكن تغير شكل الإجابة. عند تطبيق إطارنا على نماذج LLaVA-1.5، LLaVA-Next-LLaMA-3، وQwen2-VL، وجدنا هيكلًا مرحليا ثابتًا حيث تقوم الطبقات المبكرة بالتأسيس البصري، وتدعم الطبقات الوسطى التكامل اللفظي والاستدلال الدلالي، بينما تحضر الطبقات النهائية مخرجات خاصة بالمهمة. نُظهر أيضًا أنه بينما يبقى الهيكل المرحلي العام مستقرًا عبر تغييرات في ترميز الرموز البصرية، وبيانات ضبط التعليمات، وبيانات التدريب الأولية، فإن تخصيص الطبقات لكل مرحلة يتغير بشكل ملحوظ تبعًا لاختلاف معماريات LLM الأساسية. توفر نتائجنا منظورًا موحدًا لتنظيم الطبقات في MLLMs وتقدم نهجًا خفيف الوزن وغير معتمد على نموذج لتحليل ديناميكيات التمثيل متعدد الوسائط.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuoran Yu
Yong Jae Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
درس يو وآخرون (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68d6d8ba8b2b6861e4c3f236 — DOI: https://doi.org/10.48550/arxiv.2508.20279
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: