Das Verständnis räumlicher Beziehungen zwischen Objekten in Bildern ist entscheidend für robotische Navigation, Augmented-Reality-Systeme und Anwendungen im autonomen Fahren, unter anderem. Bestehende Vision-Language-Benchmarks vernachlässigen jedoch häufig explizites räumliches Denken, was den Fortschritt in diesem Bereich einschränkt. Wir führen diese Einschränkung teilweise auf vorhandene offene Datensätze und Bewertungsmetriken zurück, die räumliche Details tendenziell übersehen. Um diese Lücke zu schließen, leisten wir drei Beiträge: Erstens erweitern wir den COCO-Datensatz erheblich um Annotationen räumlicher Beziehungen und stellen damit eine Ressource für räumlich bewusste Bildbeschriftung und visuelle Fragenbeantwortung bereit. Zweitens schlagen wir einen neuen Bewertungsrahmen vor, der Metriken umfasst, die die räumliche Genauigkeit von Bildbeschriftungen sowohl auf Satz- als auch auf Datensatzebene bewerten. Drittens führen wir eine Benchmark-Studie verschiedener Vision-Encoder–Text-Decoder Transformer-Architekturen für die Bildbeschriftung unter Verwendung des eingeführten Datensatzes und der Metriken durch. Die Ergebnisse zeigen, dass aktuelle Modelle räumliche Informationen nur teilweise erfassen und verdeutlichen die Herausforderungen bei der räumlich verankerten Textgenerierung.
Building similarity graph...
Analyzing shared references across papers
Loading...
Georgios Th. Papadopoulos
Petros Drakoulis
Athanasios Ntovas
Computers
Centre for Research and Technology Hellas
Information Technologies Institute
Building similarity graph...
Analyzing shared references across papers
Loading...
Papadopoulos et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68de796d5b556a9128e1ae07 — DOI: https://doi.org/10.3390/computers14100413
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: