Key points are not available for this paper at this time.
Visuelle Fragebeantwortung (VQA) gilt als eine AI-komplette Aufgabe, da sie das Verstehen, Schlussfolgern und Ableiten von Inhalten aus Bild- und Sprachinformationen erfordert. In den letzten Jahren wurden zahlreiche neuronale Architekturen für das VQA-Problem vorgeschlagen. Dennoch bleibt der Erfolg im Zero-Shot VQA eine Herausforderung, da hierfür fortgeschrittene Generalisierungs- und Schlussfolgerungsfähigkeiten nötig sind. Diese Studie untersucht die Auswirkung der Integration von Bildunterschriften als Zwischenprozess innerhalb der VQA-Pipeline. Insbesondere erforschen wir die Wirksamkeit der Nutzung von Bildunterschriften anstelle von Bildern und den Einsatz großer Sprachmodelle (LLMs), um ein Zero-Shot-Szenario zu realisieren. Da die Bildunterschriftenerstellung der wichtigste Schritt in diesem Prozess ist, vergleichen wir den Einfluss moderner Bildunterschriftenmodelle auf die VQA-Leistung über verschiedene Fragetypen hinsichtlich Struktur und Semantik. Wir schlagen einen einfachen und effizienten fragegetriebenen Ansatz zur Bildunterschriftenerstellung innerhalb dieser Pipeline vor, um kontextuelle Informationen in das Frage-Antwort-Modell (QA) zu übertragen. Diese Methode umfasst die Extraktion von Schlüsselwörtern aus der Frage, die Generierung einer Bildunterschrift für jedes Bild-Frage-Paar unter Verwendung der Schlüsselwörter sowie die Einbindung der fragegetriebenen Bildunterschrift in die LLM-Eingabeaufforderung. Wir bewerten die Wirksamkeit der Verwendung allgemeiner und fragegetriebener Bildunterschriften in der VQA-Pipeline. Unsere Studie zeigt das Potenzial auf, Bildunterschriften einzusetzen und die Fähigkeiten von LLMs zu nutzen, um unter Zero-Shot-Bedingungen eine konkurrenzfähige Leistung auf GQA zu erzielen. Unser Code ist verfügbar unter https://github.com/ovguyo/captions-in-VQA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Övgü Özdemir
Erdem Akagündüz
Building similarity graph...
Analyzing shared references across papers
Loading...
Özdemir et al. (Fr,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e6f71db6db643587671bde — DOI: https://doi.org/10.48550/arxiv.2404.08589