Key points are not available for this paper at this time.
Nous proposons la tâche de réponse visuelle aux questions (VQA) libre et ouverte. Étant donné une image et une question en langage naturel à propos de cette image, la tâche consiste à fournir une réponse précise en langage naturel. Reflétant des scénarios du monde réel, tels que l'aide aux malvoyants, les questions et les réponses sont toutes deux ouvertes. Les questions visuelles ciblent sélectivement différentes zones d'une image, y compris les détails d'arrière-plan et le contexte sous-jacent. Par conséquent, un système qui réussit à la VQA nécessite généralement une compréhension plus détaillée de l'image et un raisonnement complexe qu'un système produisant des légendes d'images génériques. De plus, la VQA est adaptable à une évaluation automatique, car de nombreuses réponses ouvertes contiennent seulement quelques mots ou un ensemble limité de réponses pouvant être fournies sous forme de choix multiple. Nous fournissons un jeu de données contenant environ 0,25 million d'images, environ 0,76 million de questions et environ 10 millions de réponses (www.visualqa.org), et discutons des informations qu'il offre. De nombreuses bases de référence pour la VQA sont fournies et comparées à la performance humaine.
Building similarity graph...
Analyzing shared references across papers
Loading...
Stanislaw Antol
Aishwarya Agrawal
Jiasen Lu
Georgia Institute of Technology
Virginia Tech
Microsoft (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Antol et al. (Mar.) ont étudié cette question.
www.synapsesocial.com/papers/698659c429958b2750b9d65a — DOI: https://doi.org/10.1109/iccv.2015.279
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: