March 3, 2026Open Access

Amélioration de la génération de rapports radiologiques et de la localisation visuelle grâce à l'apprentissage par renforcement

Key Points

L'apprentissage par renforcement améliore la génération de rapports et la localisation visuelle dans les modèles de radiographies thoraciques, améliorant significativement la qualité des résultats.
Les métriques de performance indiquent que les modèles optimisés par RL présentent des capacités à la pointe, avec des gains significatifs par rapport aux modèles de base.
La méthode implique un fine-tuning supervisé à grande échelle suivi d'un apprentissage par renforcement avec des récompenses spécifiques à la tâche, créant une architecture de modèle puissante.
Alors que le fine-tuning supervisé reste essentiel, l'apprentissage par renforcement améliore la performance des tâches, suggérant une approche pragmatique pour les VLM médicaux.

Abstract

Les récents progrès des modèles vision-langage (VLM) ont amélioré l'interprétation des radiographies thoraciques (CXR) sous plusieurs aspects. Cependant, de nombreux VLM médicaux reposent uniquement sur le fine-tuning supervisé (SFT), qui optimise la prédiction du prochain token sans évaluer la qualité des réponses. En revanche, l'apprentissage par renforcement (RL) peut intégrer un retour spécifique à la tâche, et sa combinaison avec un raisonnement intermédiaire explicite (« réflexion ») a démontré des gains substantiels sur des tâches vérifiables en mathématiques et en programmation. Pour étudier les effets du RL et de la réflexion dans un VLM pour CXR, nous réalisons un fine-tuning supervisé à grande échelle sur des données CXR afin de construire un RadVLM mis à jour basé sur Qwen3-VL, suivi d'une phase de SFT « cold-start » qui dote le modèle d'une capacité basique de réflexion. Nous appliquons ensuite le Group Relative Policy Optimization (GRPO) avec des récompenses spécifiques, cliniquement fondées, pour la génération de rapports et la localisation visuelle, et menons des expériences RL appariées sur des variantes Qwen3-VL spécifiques au domaine et à domaine général, avec et sans réflexion. Dans tous ces contextes, nous constatons que si un SFT robuste reste crucial pour une performance de base élevée, le RL apporte des gains supplémentaires sur les deux tâches, tandis que la réflexion explicite ne semble pas améliorer davantage les résultats. Sous un pipeline d'évaluation unifié, les modèles RadVLM optimisés par RL surpassent leurs homologues de base et atteignent des performances de pointe à la fois en génération de rapports et en localisation, mettant en lumière l'apprentissage par renforcement aligné cliniquement comme un complément puissant au SFT pour les VLM médicaux.

Amélioration de la génération de rapports radiologiques et de la localisation visuelle grâce à l'apprentissage par renforcement

Key Points

Abstract

Cite This Study