Les récents progrès des modèles vision-langage (VLM) ont amélioré l'interprétation des radiographies thoraciques (CXR) sous plusieurs aspects. Cependant, de nombreux VLM médicaux reposent uniquement sur le fine-tuning supervisé (SFT), qui optimise la prédiction du prochain token sans évaluer la qualité des réponses. En revanche, l'apprentissage par renforcement (RL) peut intégrer un retour spécifique à la tâche, et sa combinaison avec un raisonnement intermédiaire explicite (« réflexion ») a démontré des gains substantiels sur des tâches vérifiables en mathématiques et en programmation. Pour étudier les effets du RL et de la réflexion dans un VLM pour CXR, nous réalisons un fine-tuning supervisé à grande échelle sur des données CXR afin de construire un RadVLM mis à jour basé sur Qwen3-VL, suivi d'une phase de SFT « cold-start » qui dote le modèle d'une capacité basique de réflexion. Nous appliquons ensuite le Group Relative Policy Optimization (GRPO) avec des récompenses spécifiques, cliniquement fondées, pour la génération de rapports et la localisation visuelle, et menons des expériences RL appariées sur des variantes Qwen3-VL spécifiques au domaine et à domaine général, avec et sans réflexion. Dans tous ces contextes, nous constatons que si un SFT robuste reste crucial pour une performance de base élevée, le RL apporte des gains supplémentaires sur les deux tâches, tandis que la réflexion explicite ne semble pas améliorer davantage les résultats. Sous un pipeline d'évaluation unifié, les modèles RadVLM optimisés par RL surpassent leurs homologues de base et atteignent des performances de pointe à la fois en génération de rapports et en localisation, mettant en lumière l'apprentissage par renforcement aligné cliniquement comme un complément puissant au SFT pour les VLM médicaux.
Gundersen et al. (Jeu,) ont étudié cette question.