Kürzlich haben sich multimodale große Sprachmodelle (MLLMs) als ein wichtiger Ansatz zur Erreichung künstlicher allgemeiner Intelligenz herauskristallisiert. Insbesondere wurden visuelle Sprach-MLLMs entwickelt, um nicht nur Text, sondern auch visuelle Ausgaben aus multimodalen Eingaben zu erzeugen. Dieser Fortschritt erfordert effiziente Bildtoken, die von LLMs sowohl bei Eingabe als auch Ausgabe effektiv verarbeitet werden können. Bestehende Bildtokenisierungsmethoden für MLLMs erfassen jedoch typischerweise nur globale abstrakte Konzepte oder gleichmäßig segmentierte Bildausschnitte, was die Fähigkeit der MLLMs einschränkt, detaillierte visuelle Inhalte, insbesondere auf Objektebene, effektiv zu verstehen oder zu generieren. Um diese Einschränkung zu adressieren, schlagen wir einen objektzentrierten visuellen Tokenizer vor, der auf Slot Attention speziell für MLLMs basiert. Insbesondere können unsere basierend auf dem Q-Former-Encoder, Diffusionsdecoder und residualer Vektorquantisierung vorgeschlagenen diskretisierten Slot-Token lokale visuelle Details kodieren und gleichzeitig hohe Semantik bewahren sowie mit Textdaten ausgerichtet sein, um nahtlos in einen einheitlichen Next-Token-Vorhersagerahmen von LLMs integriert zu werden. Das resultierende Slot-MLLM zeigt signifikante Leistungsverbesserungen gegenüber Baselines mit bisherigen visuellen Tokenizern in verschiedenen Vision-Sprach-Aufgaben, die ein detailliertes lokales Verständnis und Generierung erfordern. Bemerkenswerterweise ist diese Arbeit die erste Demonstration der Machbarkeit von objektzentrierter Slot Attention, die mit MLLMs und natürlichen Bildern „in freier Wildbahn“ durchgeführt wird.
Building similarity graph...
Analyzing shared references across papers
Loading...
D.M. Chi
Hyomin Kim
Yoonjin Oh
Building similarity graph...
Analyzing shared references across papers
Loading...
Chi et al. (Fri,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68da58d8c1728099cfd10f64 — DOI: https://doi.org/10.48550/arxiv.2505.17726
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: