What type of study is this?

This is a Experimental Study study (also classified as: Quantitative Study).

October 8, 2025Open Access

SurgXBench : Benchmark explicable des modèles de vision-langage pour la chirurgie

Key Points

Les modèles vision-langage chirurgicaux dépendent souvent d’indices contextuels faibles plutôt que de preuves visuelles pertinentes, indiquant un besoin d’amélioration de l’entraînement.
Les évaluations zero-shot mettent en lumière les limites des modèles existants sur les ensembles de données de chirurgie laparoscopique assistée par robot, soulignant la nécessité d’études de benchmark.
L’intégration d’une IA explicable permet de visualiser l’attention des VLMs, fournissant des insights sur les prédictions du modèle et leur fiabilité en chirurgie.
Les métriques d’analyse d’explicabilité proposées complètent les évaluations traditionnelles, révélant les défis pour atteindre des performances constantes dans le domaine chirurgical.

Abstract

Les innovations en intelligence numérique transforment la chirurgie robotique grâce à une prise de décision plus informée. La connaissance en temps réel de la présence et des actions des instruments chirurgicaux (par exemple, couper un tissu) est essentielle pour de tels systèmes. Pourtant, malgré des décennies de recherche, la plupart des modèles d’apprentissage automatique pour cette tâche sont entraînés sur de petits ensembles de données et peinent encore à généraliser. Récemment, les modèles vision-langage (VLM) ont apporté des avancées majeures dans le raisonnement à travers les modalités visuelles et textuelles. Leurs capacités de généralisation sans précédent suggèrent un grand potentiel pour faire progresser la chirurgie robotique intelligente. Cependant, les VLMs chirurgicaux restent sous-explorés, et les modèles existants montrent des performances limitées, soulignant le besoin d’études de benchmark pour évaluer leurs capacités et limites et guider les développements futurs. À cette fin, nous évaluons la performance zero-shot de plusieurs VLMs avancés sur deux ensembles de données publics de chirurgie laparoscopique assistée par robot pour la classification d’instruments et d’actions. Au-delà de l’évaluation standard, nous intégrons une IA explicable pour visualiser l’attention des VLM et révéler les explications causales derrière leurs prédictions. Cela offre une perspective jusqu’ici peu explorée dans ce domaine pour évaluer la fiabilité des prédictions des modèles. Nous proposons également plusieurs métriques d’analyse d’explicabilité pour compléter les évaluations standards. Notre analyse révèle que les VLM chirurgicaux, malgré un entraînement spécifique au domaine, dépendent souvent d’indices contextuels faibles plutôt que de preuves visuelles cliniquement pertinentes, soulignant la nécessité d’une supervision visuelle et raisonnée plus forte dans les applications chirurgicales.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jingjing Cheng

Xiaoyu Zhao

Sainan Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SurgXBench : Benchmark explicable des modèles de vision-langage pour la chirurgie

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider