Los puntos clave no están disponibles para este artículo en este momento.
El anclaje visual, una tarea para anclar (es decir, localizar) el lenguaje natural en imágenes, requiere esencialmente un razonamiento visual compositivo. Sin embargo, los métodos existentes simplifican en exceso la naturaleza compuesta del lenguaje en una incrustación monolítica de la oración o una composición grosera del triplete sujeto-predicado-objeto. En este artículo, proponemos anclar el lenguaje natural de una manera intuitiva, explicable y compositiva como debería ser. En particular, desarrollamos una novedosa red modular llamada red neuronal modular en árbol (NMTree) que regula el anclaje visual a lo largo del árbol de análisis de dependencias de la oración, donde cada nodo es un módulo neuronal que calcula la atención visual según su característica lingüística, y la puntuación de anclaje se acumula en una dirección de abajo hacia arriba según sea necesario. NMTree separa el anclaje visual del razonamiento compositivo, permitiendo que el primero se enfoque solo en patrones primitivos y fáciles de generalizar. Para reducir el impacto de errores de análisis, entrenamos los módulos y su ensamblaje de extremo a extremo usando la aproximación Gumbel-Softmax y su estimador de gradiente straight-through, teniendo en cuenta la naturaleza discreta del ensamblaje de módulos. En general, el NMTree propuesto supera consistentemente el estado del arte en varios benchmarks. Los resultados cualitativos muestran el cálculo explicable de la puntuación de anclaje en gran detalle.
Building similarity graph...
Analyzing shared references across papers
Loading...
Daqing Liu
Hanwang Zhang
Zheng-Jun Zha
Nanyang Technological University
University of Science and Technology of China
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (mar.) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a09644016dfdfe7ed340cc4 — DOI: https://doi.org/10.1109/iccv.2019.00477
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: