What question did this study set out to answer?

Diese Forschung zielt darauf ab, das Training medizinischer Vision-Sprach-Modelle mit minimalen gelabelten Daten zu verbessern und dabei die reasoning-Fähigkeiten zu erhalten.

May 2, 2026

Schlüsselkonzeptlernen für medizinische Vision-Sprach-Modelle mit reasoning-Fähigkeiten.

Key Points

Diese Forschung zielt darauf ab, das Training medizinischer Vision-Sprach-Modelle mit minimalen gelabelten Daten zu verbessern und dabei die reasoning-Fähigkeiten zu erhalten.
Entwicklung von ConceptVLM unter Verwendung einer schlüsselkonzept-bewussten Trainingsstrategie.
Aufbau eines strukturierten medizinischen Konzeptwörterbuchs zur Fokussierung während des Fine-Tunings.
Einsatz von maskierter Aufmerksamkeit zur Verbesserung des Verständnisses wesentlicher klinischer Konzepte.
Erzielung von state-of-the-art-Ergebnissen mit nur 1 % der ursprünglichen Trainingsdaten.
Übertrifft traditionelle Methoden, die von groß angelegten Frage-Antwort-Datensätzen abhängen.

Abstract

Das Training von medizinischen Vision-Sprach-Modellen (VLMs) erfordert typischerweise Millionen von Bild-Text-Paaren, um Vielseitigkeit und reasoning-Fähigkeiten zu erreichen, was erhebliche Herausforderungen bei der Datenerfassung darstellt. Wir schlagen ConceptVLM vor, ein neuartiges, daten-effizientes Fine-Tuning-Paradigma, das allgemeine VLMs in spezialisierte medizinische Modelle mit minimalen gelabelten Daten verwandelt und medizinisches Wissen integriert, ohne die bestehenden allgemeinen Fähigkeiten des Modells zu beeinträchtigen. Im Zentrum unseres Ansatzes steht eine schlüsselkonzept-bewusste Trainingsstrategie, die ein strukturiertes medizinisches Konzeptwörterbuch aufbaut und maskierte Aufmerksamkeit verwendet, um den Fokus des Modells auf wesentliche klinische Konzepte zu lenken. Dieses fokussierte Fine-Tuning verbessert das domänenspezifische Verständnis bei gleichzeitiger Erhaltung der reasoning-Fähigkeiten und Antwortvielfalt des Modells. Experimente über multimodale medizinische Benchmarks zeigen, dass ConceptVLM mit nur 1 % der ursprünglichen Trainingsdaten state-of-the-art-Ergebnisse erzielt und traditionelle Methoden, die auf groß angelegten Frage-Antwort-Datensätzen beruhen, übertrifft. Diese Erkenntnisse hinterfragen die vorherrschende Abhängigkeit von umfangreichen annotierten Korpora und demonstrieren das schlüsselkonzeptgeführte Tuning als einen praktikablen Weg zur Entwicklung kognitiv fähiger medizinischer VLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wei Lou

Yue Wu

Pusheng Xu

Actions

Institutions

École Polytechnique Fédérale de Lausanne

Hong Kong Polytechnic University

Zhejiang Normal University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Schlüsselkonzeptlernen für medizinische Vision-Sprach-Modelle mit reasoning-Fähigkeiten.

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider