Key points are not available for this paper at this time.
النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs) هي حالياً موضوع بحثي نشط جداً في مجتمعات الوسائط المتعددة والرؤية الحاسوبية، وتُظهِر تأثيراً كبيراً في مهام التحليل البصري وتوليد النصوص. تتمتع MLLM بفهم متكامل وتحليل بيانات معقدة من modalities متقاطعة (أي النص-الصورة) وتوليد نص مع قدرات دردشة. تركز غالبية MLLM على مواءمة ميزات الصورة مع الميزات النصية لمهام توليد النصوص اللاحقة والتي تشمل الوصف التفصيلي للصور، الإجابة على الأسئلة البصرية، توليد القصص والقصائد، تأصيل العبارات، وما إلى ذلك. مع ذلك، عند التركيز على الإجابة على الأسئلة البصرية، قد لا يتم الإجابة بشكل صحيح على الأسئلة ذات الصلة الشديدة بسياق الصورة باستخدام MLLM الحالية، خلافاً للأسئلة المتعلقة بالجوانب البصرية. علاوة على ذلك، يُعد توليد بيانات وصفية (سياق) للصورة باستخدام MLLM الحالية مهمة صعبة بسبب طبيعة التخيل للنماذج اللغوية الكبيرة الأساسية، ولا يمكن استنباط معلومات سياقية كافية مباشرة من منظور الصورة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Pavan Kartheek Rachabatuni
Filippo Principi
Paolo Mazzanti
University of Florence
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Rachabatuni وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e6f047b6db64358766afbd — DOI: https://doi.org/10.1145/3625468.3652193
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: