Los puntos clave no están disponibles para este artículo en este momento.
Los transformadores han llevado recientemente a un progreso alentador en la visión por computadora. En este trabajo, presentamos nuevas líneas base mejorando el transformador de visión piramidal original (PVT v1) al agregar tres diseños: (i) una capa de atención de complejidad lineal, (ii) un incrustado de parches superpuestos y (iii) una red de avance convolucional. Con estas modificaciones, PVT v2 reduce la complejidad computacional de PVT v1 a linealidad y proporciona mejoras significativas en tareas fundamentales de visión como clasificación, detección y segmentación. En particular, PVT v2 logra un rendimiento comparable o mejor que trabajos recientes como el transformador Swin. Esperamos que este trabajo facilite la investigación de transformadores de última generación en visión por computadora. El código está disponible en https://github.com/whai362/PVT.
Wang et al. (Mié,) estudiaron esta cuestión.