April 12, 2024Open Access

Verbesserung der visuellen Fragebeantwortung durch fragegetriebene Bildunterschriften als Eingabeaufforderungen

Key Points

Key points are not available for this paper at this time.

Abstract

Visuelle Fragebeantwortung (VQA) gilt als eine AI-komplette Aufgabe, da sie das Verstehen, Schlussfolgern und Ableiten von Inhalten aus Bild- und Sprachinformationen erfordert. In den letzten Jahren wurden zahlreiche neuronale Architekturen für das VQA-Problem vorgeschlagen. Dennoch bleibt der Erfolg im Zero-Shot VQA eine Herausforderung, da hierfür fortgeschrittene Generalisierungs- und Schlussfolgerungsfähigkeiten nötig sind. Diese Studie untersucht die Auswirkung der Integration von Bildunterschriften als Zwischenprozess innerhalb der VQA-Pipeline. Insbesondere erforschen wir die Wirksamkeit der Nutzung von Bildunterschriften anstelle von Bildern und den Einsatz großer Sprachmodelle (LLMs), um ein Zero-Shot-Szenario zu realisieren. Da die Bildunterschriftenerstellung der wichtigste Schritt in diesem Prozess ist, vergleichen wir den Einfluss moderner Bildunterschriftenmodelle auf die VQA-Leistung über verschiedene Fragetypen hinsichtlich Struktur und Semantik. Wir schlagen einen einfachen und effizienten fragegetriebenen Ansatz zur Bildunterschriftenerstellung innerhalb dieser Pipeline vor, um kontextuelle Informationen in das Frage-Antwort-Modell (QA) zu übertragen. Diese Methode umfasst die Extraktion von Schlüsselwörtern aus der Frage, die Generierung einer Bildunterschrift für jedes Bild-Frage-Paar unter Verwendung der Schlüsselwörter sowie die Einbindung der fragegetriebenen Bildunterschrift in die LLM-Eingabeaufforderung. Wir bewerten die Wirksamkeit der Verwendung allgemeiner und fragegetriebener Bildunterschriften in der VQA-Pipeline. Unsere Studie zeigt das Potenzial auf, Bildunterschriften einzusetzen und die Fähigkeiten von LLMs zu nutzen, um unter Zero-Shot-Bedingungen eine konkurrenzfähige Leistung auf GQA zu erzielen. Unser Code ist verfügbar unter https://github.com/ovguyo/captions-in-VQA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Övgü Özdemir

Erdem Akagündüz

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Verbesserung der visuellen Fragebeantwortung durch fragegetriebene Bildunterschriften als Eingabeaufforderungen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study