Key points are not available for this paper at this time.
حققت نماذج اللغة البصرية الكبيرة (LVLMs) مؤخرًا أداءً متميزًا في مهام متنوعة على بيانات الصور الطبيعية والنصوص، مما ألهم الكثير من الدراسات حول تحسين وتدريب هذه النماذج. رغم تقدمها، هناك نقص في الدراسات التي تبحث في متانة هذه النماذج ضد الهلوسة عند تعديلها على مجموعات بيانات أصغر. في هذه الدراسة، نقدم مجموعة بيانات معيارية جديدة، اختبار الهلوسة البصرية الطبية (MedVH)، لتقييم الهلوسة في نماذج LVLMs المتخصصة في المجال. يتضمن MedVH خمس مهام لتقييم الهلوسة في نماذج LVLMs ضمن السياق الطبي، تشمل مهام لفهم نصي وبصري شامل بالإضافة إلى توليد استجابات نصية طويلة. تكشف تجاربنا الموسعة مع نماذج LVLMs العامة والطبية أنه بالرغم من الأداء الواعد للنماذج الطبية في المهام الطبية القياسية، إلا أنها معرضة بشكل خاص للهلوسة، غالبًا أكثر من النماذج العامة، مما يثير مخاوف كبيرة بشأن موثوقية هذه النماذج المتخصصة. لكي تكون نماذج LVLMs الطبية ذات قيمة حقيقية في التطبيقات العملية، يجب أن لا تدمج المعرفة الطبية بدقة فحسب، بل أيضًا تحافظ على قدرات استدلال قوية لمنع الهلوسة. يفتح عملنا الطريق لتقييمات مستقبلية لهذه الدراسات.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zishan Gu
Changchang Yin
Fenglin Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Gu وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e61a64b6db6435875acf52 — DOI: https://doi.org/10.48550/arxiv.2407.02730
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: