Key points are not available for this paper at this time.
Mit dem Aufkommen großer Sprachmodelle (LLMs) haben multimodale große Sprachmodelle (MLLMs), die LLMs mit vortrainierten Visionsmodellen kombinieren, kürzlich beeindruckende Leistungen bei vielfältigen Vision-Sprach-Aufgaben gezeigt. Allerdings gelingt es ihnen nicht, Kontext zu verstehen, der mehrere Bilder umfasst. Ein Hauptgrund für dieses Defizit ist, dass die visuellen Merkmale jedes Bildes einzeln von eingefrorenen Encodern vor der Eingabe in den LLM-Backbone kodiert werden, wodurch das Bewusstsein für andere Bilder und die multimodalen Anweisungen fehlt. Wir bezeichnen dieses Problem als prior-LLM Modalitätsisolation und schlagen ein zweiphasiges Paradigma, "Durchsuchen und Konzentrieren", vor, um eine tiefgehende multimodale Kontextfusion zu ermöglichen, bevor die Merkmale in die LLMs eingespeist werden. Dieses Paradigma "durchsucht" zunächst die Eingaben nach wesentlichen Erkenntnissen und kehrt dann zurück, um sich geleitet von diesen Erkenntnissen auf entscheidende Details zu "konzentrieren", um ein umfassenderes Verständnis der multimodalen Eingaben zu erreichen. Zusätzlich entwickeln wir speziell Trainingsstrategien zur Verbesserung des Verständnisses von Multi-Bild-Eingaben. Unsere Methode steigert die Leistung deutlich in 7 Multi-Bild-Szenarien und trägt zu einer Steigerung der durchschnittlichen Genauigkeit um 2,13 % bzw. 7,60 % im Vergleich zu starken MLLM-Baselines mit 3B- bzw. 11B-LLMs bei.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ziyue Wang
Chi Chen
Yiqi Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e78a60b6db6435876fcd3a — DOI: https://doi.org/10.48550/arxiv.2402.12195
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: