Los puntos clave no están disponibles para este artículo en este momento.
Este artículo revisita las redes de atención bilineales (BANs) en la tarea de respuesta a preguntas visuales desde una perspectiva de grafos. Las BANs clásicas construyen un mapa de atención bilineal para extraer la representación conjunta de las palabras en la pregunta y los objetos en la imagen, pero no exploran completamente la relación entre palabras para un razonamiento complejo. En contraste, desarrollamos redes de grafos bilineales para modelar el contexto de las incrustaciones conjuntas de palabras y objetos. Se investigan dos tipos de grafos, a saber, grafo-imagen y grafo-pregunta. El grafo-imagen transfiere características de los objetos detectados a sus palabras de consulta relacionadas, permitiendo que los nodos de salida tengan tanto información semántica como fáctica. El grafo-pregunta intercambia información entre estos nodos de salida del grafo-imagen para amplificar la relación implícita pero importante entre objetos. Estos dos tipos de grafos cooperan entre sí y, por lo tanto, nuestro modelo resultante puede construir la relación y dependencia entre objetos, lo que conduce a la realización de razonamientos de múltiples pasos. Los resultados experimentales en el conjunto de validación VQA v2.0 demuestran la capacidad de nuestro método para manejar preguntas complejas. En el conjunto test-std, nuestro mejor modelo único logra un rendimiento de última generación, elevando la precisión general al 72.56%, y somos una de las dos mejores entradas en el VQA Challenge 2020.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dalu Guo
Chang Xu
Dacheng Tao
IEEE Transactions on Neural Networks and Learning Systems
The University of Sydney
Jingdong (China)
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo et al. (mar,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a0b398453fc0b85715d13ec — DOI: https://doi.org/10.1109/tnnls.2021.3104937
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: