Key points are not available for this paper at this time.
يدرك البشر العالم من خلال حواس متنوعة مثل البصر والشم والسمع واللمس. وبالمثل، تعزز نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات نماذج اللغة الكبيرة التقليدية من خلال دمج ومعالجة البيانات من وسائط متعددة تشمل النص والرؤية والصوت والفيديو والبيئات الثلاثية الأبعاد. تلعب البيانات دورًا محوريًا في تطوير هذه النماذج وتحسينها. في هذا المسح، نستعرض الأدبيات المتعلقة بـ MLLMs من منظور متمركز حول البيانات بشكل شامل. على وجه الخصوص، نستكشف الأساليب المستخدمة في تحضير البيانات متعددة الوسائط خلال مراحل التدريب القبلي والتكيف لـ MLLMs. بالإضافة إلى ذلك، نُحلل طرق التقييم لمجموعات البيانات ونراجع المعايير المرجعية لتقييم MLLMs. كما يسرد مسحنا اتجاهات البحث المستقبلية المحتملة. تهدف هذه الدراسة إلى توفير فهم متعمق للباحثين حول الجوانب المرتكزة على البيانات في MLLMs، مما يعزز المزيد من الاستكشاف والابتكار في هذا المجال.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tianyi Bai
Hao Liang
Binwang Wan
Building similarity graph...
Analyzing shared references across papers
Loading...
درس باي وآخرون (Sun,) هذا السؤال.
www.synapsesocial.com/papers/68e6859fb6db64358760ea04 — DOI: https://doi.org/10.48550/arxiv.2405.16640
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: