February 19, 2024Open Access

Durchsuchen und Konzentrieren: Verstehen multimodaler Inhalte durch prior-LLM Kontextfusion

Key Points

Key points are not available for this paper at this time.

Abstract

Mit dem Aufkommen großer Sprachmodelle (LLMs) haben multimodale große Sprachmodelle (MLLMs), die LLMs mit vortrainierten Visionsmodellen kombinieren, kürzlich beeindruckende Leistungen bei vielfältigen Vision-Sprach-Aufgaben gezeigt. Allerdings gelingt es ihnen nicht, Kontext zu verstehen, der mehrere Bilder umfasst. Ein Hauptgrund für dieses Defizit ist, dass die visuellen Merkmale jedes Bildes einzeln von eingefrorenen Encodern vor der Eingabe in den LLM-Backbone kodiert werden, wodurch das Bewusstsein für andere Bilder und die multimodalen Anweisungen fehlt. Wir bezeichnen dieses Problem als prior-LLM Modalitätsisolation und schlagen ein zweiphasiges Paradigma, "Durchsuchen und Konzentrieren", vor, um eine tiefgehende multimodale Kontextfusion zu ermöglichen, bevor die Merkmale in die LLMs eingespeist werden. Dieses Paradigma "durchsucht" zunächst die Eingaben nach wesentlichen Erkenntnissen und kehrt dann zurück, um sich geleitet von diesen Erkenntnissen auf entscheidende Details zu "konzentrieren", um ein umfassenderes Verständnis der multimodalen Eingaben zu erreichen. Zusätzlich entwickeln wir speziell Trainingsstrategien zur Verbesserung des Verständnisses von Multi-Bild-Eingaben. Unsere Methode steigert die Leistung deutlich in 7 Multi-Bild-Szenarien und trägt zu einer Steigerung der durchschnittlichen Genauigkeit um 2,13 % bzw. 7,60 % im Vergleich zu starken MLLM-Baselines mit 3B- bzw. 11B-LLMs bei.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ziyue Wang

Chi Chen

Yiqi Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Durchsuchen und Konzentrieren: Verstehen multimodaler Inhalte durch prior-LLM Kontextfusion

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider