December 1, 2015

VQA : Réponse Visuelle aux Questions

Key Points

Key points are not available for this paper at this time.

Abstract

Nous proposons la tâche de réponse visuelle aux questions (VQA) libre et ouverte. Étant donné une image et une question en langage naturel à propos de cette image, la tâche consiste à fournir une réponse précise en langage naturel. Reflétant des scénarios du monde réel, tels que l'aide aux malvoyants, les questions et les réponses sont toutes deux ouvertes. Les questions visuelles ciblent sélectivement différentes zones d'une image, y compris les détails d'arrière-plan et le contexte sous-jacent. Par conséquent, un système qui réussit à la VQA nécessite généralement une compréhension plus détaillée de l'image et un raisonnement complexe qu'un système produisant des légendes d'images génériques. De plus, la VQA est adaptable à une évaluation automatique, car de nombreuses réponses ouvertes contiennent seulement quelques mots ou un ensemble limité de réponses pouvant être fournies sous forme de choix multiple. Nous fournissons un jeu de données contenant environ 0,25 million d'images, environ 0,76 million de questions et environ 10 millions de réponses (www.visualqa.org), et discutons des informations qu'il offre. De nombreuses bases de référence pour la VQA sont fournies et comparées à la performance humaine.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Stanislaw Antol

Aishwarya Agrawal

Jiasen Lu

Actions

Institutions

Georgia Institute of Technology

Virginia Tech

Microsoft (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VQA : Réponse Visuelle aux Questions

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider