Los puntos clave no están disponibles para este artículo en este momento.
En este trabajo, revisamos la capa de agrupación promedio global propuesta en 13, y aclaramos cómo ésta permite explícitamente que la red neuronal convolucional (CNN) tenga una capacidad notable de localización a pesar de ser entrenada con etiquetas a nivel de imagen. Aunque esta técnica fue propuesta anteriormente como un medio para regularizar el entrenamiento, encontramos que en realidad construye una representación profunda localizable genérica que expone la atención implícita de las CNN en una imagen. A pesar de la aparente simplicidad de la agrupación promedio global, logramos un error top-5 del 37.1% para la localización de objetos en ILSVRC 2014 sin entrenar con ninguna anotación de caja delimitadora. Demostramos en una variedad de experimentos que nuestra red es capaz de localizar las regiones discriminativas de la imagen a pesar de estar entrenada únicamente para resolver la tarea de clasificación.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bolei Zhou
Aditya Khosla
Àgata Lapedriza
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (Mié,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69d71f813f906f6a06bef23a — DOI: https://doi.org/10.1109/cvpr.2016.319
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: