Los puntos clave no están disponibles para este artículo en este momento.
Presentamos el Contraste de Momentum (MoCo) para el aprendizaje de representaciones visuales no supervisadas. Desde una perspectiva del aprendizaje contrastivo como búsqueda en diccionario, construimos un diccionario dinámico con una cola y un codificador de promedio móvil. Esto permite construir un diccionario grande y consistente al vuelo que facilita el aprendizaje contrastivo no supervisado. MoCo proporciona resultados competitivos bajo el protocolo lineal común en la clasificación de ImageNet. Más importante aún, las representaciones aprendidas por MoCo se transfieren bien a tareas posteriores. MoCo puede superar a su contraparte de pre-entrenamiento supervisado en 7 tareas de detección/segmentación en PASCAL VOC, COCO y otros conjuntos de datos, a veces superándola por grandes márgenes. Esto sugiere que la brecha entre el aprendizaje de representaciones no supervisadas y supervisadas se ha cerrado en gran medida en muchas tareas de visión.
He et al. (Mon,) estudiaron esta cuestión.