June 1, 2016Open Access

Aprendiendo características profundas para la localización discriminativa

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En este trabajo, revisamos la capa de agrupación promedio global propuesta en 13, y aclaramos cómo ésta permite explícitamente que la red neuronal convolucional (CNN) tenga una capacidad notable de localización a pesar de ser entrenada con etiquetas a nivel de imagen. Aunque esta técnica fue propuesta anteriormente como un medio para regularizar el entrenamiento, encontramos que en realidad construye una representación profunda localizable genérica que expone la atención implícita de las CNN en una imagen. A pesar de la aparente simplicidad de la agrupación promedio global, logramos un error top-5 del 37.1% para la localización de objetos en ILSVRC 2014 sin entrenar con ninguna anotación de caja delimitadora. Demostramos en una variedad de experimentos que nuestra red es capaz de localizar las regiones discriminativas de la imagen a pesar de estar entrenada únicamente para resolver la tarea de clasificación.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bolei Zhou

Aditya Khosla

Àgata Lapedriza

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendiendo características profundas para la localización discriminativa

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider