April 15, 2024Open Access

دردشة ذكية تعتمد على السياق باستخدام النماذج اللغوية الكبيرة متعددة الوسائط للتراث الثقافي

Key Points

Key points are not available for this paper at this time.

Abstract

النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) هي حالياً موضوع بحثي نشط جداً في مجتمعات الوسائط المتعددة والرؤية الحاسوبية، وتُظهِر تأثيراً كبيراً في مهام التحليل البصري وتوليد النصوص. تتمتع MLLM بفهم متكامل وتحليل بيانات معقدة من modalities متقاطعة (أي النص-الصورة) وتوليد نص مع قدرات دردشة. تركز غالبية MLLM على مواءمة ميزات الصورة مع الميزات النصية لمهام توليد النصوص اللاحقة والتي تشمل الوصف التفصيلي للصور، الإجابة على الأسئلة البصرية، توليد القصص والقصائد، تأصيل العبارات، وما إلى ذلك. مع ذلك، عند التركيز على الإجابة على الأسئلة البصرية، قد لا يتم الإجابة بشكل صحيح على الأسئلة ذات الصلة الشديدة بسياق الصورة باستخدام MLLM الحالية، خلافاً للأسئلة المتعلقة بالجوانب البصرية. علاوة على ذلك، يُعد توليد بيانات وصفية (سياق) للصورة باستخدام MLLM الحالية مهمة صعبة بسبب طبيعة التخيل للنماذج اللغوية الكبيرة الأساسية، ولا يمكن استنباط معلومات سياقية كافية مباشرة من منظور الصورة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Pavan Kartheek Rachabatuni

Filippo Principi

Paolo Mazzanti

Actions

Institutions

University of Florence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

دردشة ذكية تعتمد على السياق باستخدام النماذج اللغوية الكبيرة متعددة الوسائط للتراث الثقافي

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider