لطالما واجهت نماذج اللغة والرؤية الكبيرة (VLMs) صعوبات في مهام التفكير المكاني. من المدهش أن مهام التفكير المكاني البسيطة، مثل التعرف على علاقات "تحت" أو "خلف" بين كائنين فقط، تشكل تحديات كبيرة للنماذج الحالية. في هذا العمل، ندرس تحدي التفكير المكاني من منظور التفسير الميكانيكي، حيث نستعرض الحالات الداخلية للنموذج لفحص التفاعلات بين رموز الصورة والنص. من خلال تتبع توزيع الانتباه عبر الصورة خلال الطبقات المتوسطة، نلاحظ أن النجاح في التفكير المكاني يرتبط ارتباطًا وثيقًا بقدرة النموذج على محاذاة توزيع انتباهه مع المواقع الفعلية للكائنات، وخاصة الفارق بين العلاقات المكانية المألوفة وغير المألوفة. بناءً على هذه النتائج، نقترح ADAPTVIS المعتمد على درجات الثقة أثناء الاستدلال لشحذ الانتباه على المناطق ذات الصلة العالية عند وجود ثقة، بينما يتم تنعيم وتوسيع نافذة الانتباه للنظر في سياق أوسع عندما تكون الثقة أقل. تُظهر هذه الطريقة في فك التشفير الخالية من التدريب تحسنًا كبيرًا (مثل تحسن يصل إلى 50 نقطة مطلقة) في معايير التفكير المكاني مثل WhatsUp وVSR بتكلفة ضئيلة جدًا. نحن نوفر الكود والبيانات للاستخدام البحثي على https://github.com/shiqichen17/AdaptVis.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shiqi Chen
Tongyao Zhu
Ruochen Zhou
Building similarity graph...
Analyzing shared references across papers
Loading...
درس تشين وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68ece2abd1bb2827d1297467 — DOI: https://doi.org/10.48550/arxiv.2503.01773
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: