March 22, 2024Open Access

Surgical-LVLM: تعلم تكييف نموذج رؤية-لغة كبير للإجابة على الأسئلة البصرية الموجهة في جراحة الروبوت

Key Points

Key points are not available for this paper at this time.

Abstract

أظهرت التطورات الحديثة في الإجابة على الأسئلة البصرية الجراحية (Surgical-VQA) والتأريض الإقليمي المرتبط بها وعودًا كبيرة للتطبيقات الروبوتية والطبية، مؤدية إلى تلبية الحاجة الماسة لطرق آلية في الإرشاد الجراحي المخصص. ومع ذلك، توفر النماذج الحالية إجابات هيكلية بسيطة في الغالب وتواجه صعوبة مع السيناريوهات المعقدة بسبب قدرتها المحدودة على التعرف على التبعيات طويلة المدى ومحاذاة المعلومات متعددة الوسائط. في هذه الورقة، نقدم Surgical-LVLM، نموذج رؤية-لغة كبير جديد مخصص يتلاءم مع السيناريوهات الجراحية المعقدة. من خلال الاستفادة من نموذج الرؤية-اللغة الكبير المدرب مسبقًا وكتل LoRA المتخصصة للإدراك البصري (VP-LoRA)، يتفوق نموذجنا في فهم المهام البصرية-اللغوية المعقدة داخل السياقات الجراحية. في معالجة مهمة التأريض البصري، نقترح وحدة التفاعل مع الرموز (TIT)، التي تعزز التفاعل بين وحدة التأريض والاستجابات اللغوية لنموذج اللغة البصرية الكبير (LVLM) بعد إسقاطها في الفضاء الكامن. نبرهن على فعالية Surgical-LVLM في عدة معايير قياسية، بما في ذلك EndoVis-17-VQLA وEndoVis-18-VQLA ومجموعة بيانات EndoVis Conversations الجديدة التي ترسخ معايير أداء جديدة. يساهم عملنا في تقدم مجال الإرشاد الجراحي الآلي من خلال توفير حل يدرك السياق.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guankun Wang

Long Bai

Wan Jun Nah

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Surgical-LVLM: تعلم تكييف نموذج رؤية-لغة كبير للإجابة على الأسئلة البصرية الموجهة في جراحة الروبوت

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider