What type of study is this?

This is a Experimental Study study.

September 29, 2025Open Access

Slot-MLLM: Objektzentrierte visuelle Tokenisierung für multimodale LLM

Key Points

Das Slot-MLLM verbessert signifikant die Leistung bei Vision-Sprach-Aufgaben und demonstriert ein verbessertes lokales Detailverständnis.
Es führt einen neuartigen objektzentrierten Tokenizer unter Verwendung von Slot Attention ein, der lokale visuelle Details neben hoher Semantik effektiv kodiert.
Durch die Nutzung von Q-Former und Diffusions-Decodern überbrückt das Modell visuelle Daten mit Text effizient innerhalb eines Next-Token-Vorhersagerahmens.
Diese Arbeit etabliert die erste erfolgreiche Anwendung von objektzentrierter Slot Attention in MLLMs und hebt deren Vorteile für die Analyse natürlicher Bilder hervor.

Abstract

Kürzlich haben sich multimodale große Sprachmodelle (MLLMs) als ein wichtiger Ansatz zur Erreichung künstlicher allgemeiner Intelligenz herauskristallisiert. Insbesondere wurden visuelle Sprach-MLLMs entwickelt, um nicht nur Text, sondern auch visuelle Ausgaben aus multimodalen Eingaben zu erzeugen. Dieser Fortschritt erfordert effiziente Bildtoken, die von LLMs sowohl bei Eingabe als auch Ausgabe effektiv verarbeitet werden können. Bestehende Bildtokenisierungsmethoden für MLLMs erfassen jedoch typischerweise nur globale abstrakte Konzepte oder gleichmäßig segmentierte Bildausschnitte, was die Fähigkeit der MLLMs einschränkt, detaillierte visuelle Inhalte, insbesondere auf Objektebene, effektiv zu verstehen oder zu generieren. Um diese Einschränkung zu adressieren, schlagen wir einen objektzentrierten visuellen Tokenizer vor, der auf Slot Attention speziell für MLLMs basiert. Insbesondere können unsere basierend auf dem Q-Former-Encoder, Diffusionsdecoder und residualer Vektorquantisierung vorgeschlagenen diskretisierten Slot-Token lokale visuelle Details kodieren und gleichzeitig hohe Semantik bewahren sowie mit Textdaten ausgerichtet sein, um nahtlos in einen einheitlichen Next-Token-Vorhersagerahmen von LLMs integriert zu werden. Das resultierende Slot-MLLM zeigt signifikante Leistungsverbesserungen gegenüber Baselines mit bisherigen visuellen Tokenizern in verschiedenen Vision-Sprach-Aufgaben, die ein detailliertes lokales Verständnis und Generierung erfordern. Bemerkenswerterweise ist diese Arbeit die erste Demonstration der Machbarkeit von objektzentrierter Slot Attention, die mit MLLMs und natürlichen Bildern „in freier Wildbahn“ durchgeführt wird.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

D.M. Chi

Hyomin Kim

Yoonjin Oh

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Slot-MLLM: Objektzentrierte visuelle Tokenisierung für multimodale LLM

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider