Key points are not available for this paper at this time.
视觉定位是一项将自然语言定位(即在图像中定位)任务,实质上需要复合视觉推理。然而,现有方法过于简化语言的复合特性,仅将其表示为单一的句子嵌入或粗略的主-谓-宾三元组组成。本文提出以直观、可解释且复合的方式进行自然语言定位。具体而言,我们开发了一种新颖的模块化网络——神经模块树网络(NMTree),该网络沿句子的依存句法树对视觉定位进行规范化,其中每个节点是一个神经模块,依据其语言特征计算视觉注意力,定位得分按自底向上的方向累积,按需进行。NMTree将视觉定位与复合推理解耦,使视觉定位只需关注原始且易于泛化的模式。为减少解析错误的影响,我们使用Gumbel-Softmax近似及其直通梯度估计器,端到端训练模块及其组装,处理模块组装的离散特性。总体而言,所提NMTree在多个基准测试上持续优于现有技术。定性结果展示了详尽且可解释的定位得分计算。
Building similarity graph...
Analyzing shared references across papers
Loading...
Daqing Liu
Hanwang Zhang
Zheng-Jun Zha
Nanyang Technological University
University of Science and Technology of China
Building similarity graph...
Analyzing shared references across papers
Loading...
刘等人(周二,)研究了此问题。
www.synapsesocial.com/papers/6a09644016dfdfe7ed340cc4 — DOI: https://doi.org/10.1109/iccv.2019.00477
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: