Les innovations en intelligence numérique transforment la chirurgie robotique grâce à une prise de décision plus informée. La connaissance en temps réel de la présence et des actions des instruments chirurgicaux (par exemple, couper un tissu) est essentielle pour de tels systèmes. Pourtant, malgré des décennies de recherche, la plupart des modèles d’apprentissage automatique pour cette tâche sont entraînés sur de petits ensembles de données et peinent encore à généraliser. Récemment, les modèles vision-langage (VLM) ont apporté des avancées majeures dans le raisonnement à travers les modalités visuelles et textuelles. Leurs capacités de généralisation sans précédent suggèrent un grand potentiel pour faire progresser la chirurgie robotique intelligente. Cependant, les VLMs chirurgicaux restent sous-explorés, et les modèles existants montrent des performances limitées, soulignant le besoin d’études de benchmark pour évaluer leurs capacités et limites et guider les développements futurs. À cette fin, nous évaluons la performance zero-shot de plusieurs VLMs avancés sur deux ensembles de données publics de chirurgie laparoscopique assistée par robot pour la classification d’instruments et d’actions. Au-delà de l’évaluation standard, nous intégrons une IA explicable pour visualiser l’attention des VLM et révéler les explications causales derrière leurs prédictions. Cela offre une perspective jusqu’ici peu explorée dans ce domaine pour évaluer la fiabilité des prédictions des modèles. Nous proposons également plusieurs métriques d’analyse d’explicabilité pour compléter les évaluations standards. Notre analyse révèle que les VLM chirurgicaux, malgré un entraînement spécifique au domaine, dépendent souvent d’indices contextuels faibles plutôt que de preuves visuelles cliniquement pertinentes, soulignant la nécessité d’une supervision visuelle et raisonnée plus forte dans les applications chirurgicales.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jingjing Cheng
Xiaoyu Zhao
Sainan Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Cheng et al. (ven.) ont étudié cette question.
www.synapsesocial.com/papers/68e6494525bc5bdb98713940 — DOI: https://doi.org/10.48550/arxiv.2505.10764
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: