May 26, 2024Open Access

مسح لنماذج اللغة الكبيرة متعددة الوسائط من منظور متمركز حول البيانات

Key Points

Key points are not available for this paper at this time.

Abstract

يدرك البشر العالم من خلال حواس متنوعة مثل البصر والشم والسمع واللمس. وبالمثل، تعزز نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) قدرات نماذج اللغة الكبيرة التقليدية من خلال دمج ومعالجة البيانات من وسائط متعددة تشمل النص والرؤية والصوت والفيديو والبيئات الثلاثية الأبعاد. تلعب البيانات دورًا محوريًا في تطوير هذه النماذج وتحسينها. في هذا المسح، نستعرض الأدبيات المتعلقة بـ MLLMs من منظور متمركز حول البيانات بشكل شامل. على وجه الخصوص، نستكشف الأساليب المستخدمة في تحضير البيانات متعددة الوسائط خلال مراحل التدريب القبلي والتكيف لـ MLLMs. بالإضافة إلى ذلك، نُحلل طرق التقييم لمجموعات البيانات ونراجع المعايير المرجعية لتقييم MLLMs. كما يسرد مسحنا اتجاهات البحث المستقبلية المحتملة. تهدف هذه الدراسة إلى توفير فهم متعمق للباحثين حول الجوانب المرتكزة على البيانات في MLLMs، مما يعزز المزيد من الاستكشاف والابتكار في هذا المجال.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tianyi Bai

Hao Liang

Binwang Wan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

مسح لنماذج اللغة الكبيرة متعددة الوسائط من منظور متمركز حول البيانات

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider