Key points are not available for this paper at this time.
نماذج الرؤية واللغة الواسعة النطاق العامة (VLMs) تتطور بسرعة، لكنها لا تزال تقدم أداءً ضعيفًا في مجال الاستشعار عن بُعد (RS) بسبب الطبيعة الفريدة والمتخصصة لصور الاستشعار عن بُعد والإدراك المكاني المحدود نسبيًا لنماذج VLMs الحالية. النماذج الخاصة بالرؤية واللغة للاستشعار عن بُعد (RSVLMs) لا تزال تملك إمكانيات كبيرة للتحسين، ويرجع ذلك أساسًا إلى نقص مجموعات بيانات رؤية-لغة كبيرة وعالية الجودة لمجال الاستشعار عن بُعد. قمنا ببناء HqDC-1.4M، وهي مجموعة كبيرة النطاق من التسميات التوضيحية عالية الجودة والمفصلة لصور الاستشعار عن بُعد، وتحتوي على 1.4 مليون زوج صورة-تسمية، والتي لا تعزز فقط فهم نماذج RSVLM للصور وإنما تحسن بشكل كبير قدرات الإدراك المكاني للنموذج مثل التحديد العددي والتحديد المكاني، مما يزيد من فعالية نماذج RSVLM. علاوة على ذلك، ولمعالجة مشكلة "الهلوسة" الحتمية في نماذج RSVLM، طورنا RSSA، أول مجموعة بيانات تهدف إلى تعزيز قدرة النماذج على الوعي الذاتي. من خلال دمج مجموعة متنوعة من الأسئلة التي لا يمكن الإجابة عليها ضمن مهام الأسئلة والأجوبة البصرية النموذجية للاستشعار عن بُعد، يحسن RSSA بشكل فعال مصداقية النموذج ويقلل من الهلوسات في مخرجاته، مما يعزز من صدق نموذج RSVLM. استنادًا إلى هذه المجموعات، اقترحنا H2RSVLM، نموذج رؤية ولغة للاستشعار عن بُعد مفيد وصادق. حقق H2RSVLM أداءً متميزًا على عدة مجموعات بيانات عامة للاستشعار عن بُعد وقادر على التعرف ورفض الإجابة على الأسئلة التي لا يمكن الإجابة عليها، مما يقلل بشكل فعال من التوليدات غير الصحيحة. سنصدر الشيفرة والبيانات وأوزان النموذج على https://github.com/opendatalab/H2RSVLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chao Pang
Jiang Wu
Jiayu Li
Building similarity graph...
Analyzing shared references across papers
Loading...
درس بانغ وآخرون (Fri,) هذا السؤال.
www.synapsesocial.com/papers/68e71cbcb6db6435876963ba — DOI: https://doi.org/10.48550/arxiv.2403.20213