What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

SADAMB: Fortschritt in räumlich bewusster Vision-Language-Modellierung durch Datensätze, Metriken und Benchmarks

Key Points

Aktuelle Modelle haben Schwierigkeiten mit räumlichen Beziehungen bei der Bildbeschriftung, was ihre Wirksamkeit einschränkt und eine wichtige Lücke aufzeigt.
Die Erweiterung des COCO-Datensatzes um Annotationen räumlicher Beziehungen stellt eine wesentliche Ressource zur Verbesserung von Vision-Language-Aufgaben dar.
Ein neuartiger Bewertungsrahmen, der die räumliche Genauigkeit sowohl auf Satz- als auch auf Datensatzebene misst, verbessert die Effektivität der Metriken.
Benchmarking verschiedener Transformer-Architekturen zeigt anhaltende Herausforderungen bei der vollständigen Erfassung räumlicher Informationen in Bildbeschriftungen auf.

Abstract

Das Verständnis räumlicher Beziehungen zwischen Objekten in Bildern ist entscheidend für robotische Navigation, Augmented-Reality-Systeme und Anwendungen im autonomen Fahren, unter anderem. Bestehende Vision-Language-Benchmarks vernachlässigen jedoch häufig explizites räumliches Denken, was den Fortschritt in diesem Bereich einschränkt. Wir führen diese Einschränkung teilweise auf vorhandene offene Datensätze und Bewertungsmetriken zurück, die räumliche Details tendenziell übersehen. Um diese Lücke zu schließen, leisten wir drei Beiträge: Erstens erweitern wir den COCO-Datensatz erheblich um Annotationen räumlicher Beziehungen und stellen damit eine Ressource für räumlich bewusste Bildbeschriftung und visuelle Fragenbeantwortung bereit. Zweitens schlagen wir einen neuen Bewertungsrahmen vor, der Metriken umfasst, die die räumliche Genauigkeit von Bildbeschriftungen sowohl auf Satz- als auch auf Datensatzebene bewerten. Drittens führen wir eine Benchmark-Studie verschiedener Vision-Encoder–Text-Decoder Transformer-Architekturen für die Bildbeschriftung unter Verwendung des eingeführten Datensatzes und der Metriken durch. Die Ergebnisse zeigen, dass aktuelle Modelle räumliche Informationen nur teilweise erfassen und verdeutlichen die Herausforderungen bei der räumlich verankerten Textgenerierung.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Georgios Th. Papadopoulos

Petros Drakoulis

Athanasios Ntovas

Journals

Computers

Actions

Institutions

Centre for Research and Technology Hellas

Information Technologies Institute

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Papadopoulos et al. (Mon,) untersuchten diese Fragestellung.

www.synapsesocial.com/papers/68de796d5b556a9128e1ae07 — DOI: https://doi.org/10.3390/computers14100413

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates· 2017 · 1,446 citations
BLEU· 2001 · 21,377 citations
A survey on deep learning in medical image analysis· 2017 · 14,038 citations
Visual Spatial Reasoning· 2023 · 91 citations
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks· 2020 · 1,513 citations

SADAMB: Fortschritt in räumlich bewusster Vision-Language-Modellierung durch Datensätze, Metriken und Benchmarks

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider