August 24, 2021

Redes de Grafos Bilineales para Respuestas a Preguntas Visuales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Este artículo revisita las redes de atención bilineales (BANs) en la tarea de respuesta a preguntas visuales desde una perspectiva de grafos. Las BANs clásicas construyen un mapa de atención bilineal para extraer la representación conjunta de las palabras en la pregunta y los objetos en la imagen, pero no exploran completamente la relación entre palabras para un razonamiento complejo. En contraste, desarrollamos redes de grafos bilineales para modelar el contexto de las incrustaciones conjuntas de palabras y objetos. Se investigan dos tipos de grafos, a saber, grafo-imagen y grafo-pregunta. El grafo-imagen transfiere características de los objetos detectados a sus palabras de consulta relacionadas, permitiendo que los nodos de salida tengan tanto información semántica como fáctica. El grafo-pregunta intercambia información entre estos nodos de salida del grafo-imagen para amplificar la relación implícita pero importante entre objetos. Estos dos tipos de grafos cooperan entre sí y, por lo tanto, nuestro modelo resultante puede construir la relación y dependencia entre objetos, lo que conduce a la realización de razonamientos de múltiples pasos. Los resultados experimentales en el conjunto de validación VQA v2.0 demuestran la capacidad de nuestro método para manejar preguntas complejas. En el conjunto test-std, nuestro mejor modelo único logra un rendimiento de última generación, elevando la precisión general al 72.56%, y somos una de las dos mejores entradas en el VQA Challenge 2020.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dalu Guo

Chang Xu

Dacheng Tao

Journals

IEEE Transactions on Neural Networks and Learning Systems

Actions

Institutions

The University of Sydney

Jingdong (China)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Redes de Grafos Bilineales para Respuestas a Preguntas Visuales

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider