Key points are not available for this paper at this time.
أظهرت التطورات الحديثة في الإجابة على الأسئلة البصرية الجراحية (Surgical-VQA) والتأريض الإقليمي المرتبط بها وعودًا كبيرة للتطبيقات الروبوتية والطبية، مؤدية إلى تلبية الحاجة الماسة لطرق آلية في الإرشاد الجراحي المخصص. ومع ذلك، توفر النماذج الحالية إجابات هيكلية بسيطة في الغالب وتواجه صعوبة مع السيناريوهات المعقدة بسبب قدرتها المحدودة على التعرف على التبعيات طويلة المدى ومحاذاة المعلومات متعددة الوسائط. في هذه الورقة، نقدم Surgical-LVLM، نموذج رؤية-لغة كبير جديد مخصص يتلاءم مع السيناريوهات الجراحية المعقدة. من خلال الاستفادة من نموذج الرؤية-اللغة الكبير المدرب مسبقًا وكتل LoRA المتخصصة للإدراك البصري (VP-LoRA)، يتفوق نموذجنا في فهم المهام البصرية-اللغوية المعقدة داخل السياقات الجراحية. في معالجة مهمة التأريض البصري، نقترح وحدة التفاعل مع الرموز (TIT)، التي تعزز التفاعل بين وحدة التأريض والاستجابات اللغوية لنموذج اللغة البصرية الكبير (LVLM) بعد إسقاطها في الفضاء الكامن. نبرهن على فعالية Surgical-LVLM في عدة معايير قياسية، بما في ذلك EndoVis-17-VQLA وEndoVis-18-VQLA ومجموعة بيانات EndoVis Conversations الجديدة التي ترسخ معايير أداء جديدة. يساهم عملنا في تقدم مجال الإرشاد الجراحي الآلي من خلال توفير حل يدرك السياق.
Building similarity graph...
Analyzing shared references across papers
Loading...
Guankun Wang
Long Bai
Wan Jun Nah
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Wang وآخرون (الجمعة) هذا السؤال.
www.synapsesocial.com/papers/68e72bb1b6db6435876a5e38 — DOI: https://doi.org/10.48550/arxiv.2405.10948
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: