Das Training von medizinischen Vision-Sprach-Modellen (VLMs) erfordert typischerweise Millionen von Bild-Text-Paaren, um Vielseitigkeit und reasoning-Fähigkeiten zu erreichen, was erhebliche Herausforderungen bei der Datenerfassung darstellt. Wir schlagen ConceptVLM vor, ein neuartiges, daten-effizientes Fine-Tuning-Paradigma, das allgemeine VLMs in spezialisierte medizinische Modelle mit minimalen gelabelten Daten verwandelt und medizinisches Wissen integriert, ohne die bestehenden allgemeinen Fähigkeiten des Modells zu beeinträchtigen. Im Zentrum unseres Ansatzes steht eine schlüsselkonzept-bewusste Trainingsstrategie, die ein strukturiertes medizinisches Konzeptwörterbuch aufbaut und maskierte Aufmerksamkeit verwendet, um den Fokus des Modells auf wesentliche klinische Konzepte zu lenken. Dieses fokussierte Fine-Tuning verbessert das domänenspezifische Verständnis bei gleichzeitiger Erhaltung der reasoning-Fähigkeiten und Antwortvielfalt des Modells. Experimente über multimodale medizinische Benchmarks zeigen, dass ConceptVLM mit nur 1 % der ursprünglichen Trainingsdaten state-of-the-art-Ergebnisse erzielt und traditionelle Methoden, die auf groß angelegten Frage-Antwort-Datensätzen beruhen, übertrifft. Diese Erkenntnisse hinterfragen die vorherrschende Abhängigkeit von umfangreichen annotierten Korpora und demonstrieren das schlüsselkonzeptgeführte Tuning als einen praktikablen Weg zur Entwicklung kognitiv fähiger medizinischer VLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wei Lou
Yue Wu
Pusheng Xu
École Polytechnique Fédérale de Lausanne
Hong Kong Polytechnic University
Zhejiang Normal University
Building similarity graph...
Analyzing shared references across papers
Loading...
Lou et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69f5947e71405d493afff41e — DOI: https://doi.org/10.1038/s41746-026-02676-5
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: