May 22, 2024Open Access

Transformador de Visión con Prioridad de Escaneo Disperso

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En los últimos años, los Transformadores han logrado un progreso notable en tareas de visión por computadora. Sin embargo, su modelado global a menudo conlleva una carga computacional sustancial, en marcado contraste con el procesamiento eficiente de la información del ojo humano. Inspirados en el mecanismo de escaneo disperso del ojo humano, proponemos un mecanismo de Auto-Atención de Escaneo Disperso (S³A). Este mecanismo predefine una serie de Anclas de Interés para cada token y emplea atención local para modelar eficientemente la información espacial alrededor de estas anclas, evitando el modelado global redundante y la atención excesiva en información local. Este enfoque refleja la funcionalidad del ojo humano y reduce significativamente la carga computacional de los modelos de visión. Basándonos en S³A, introducimos el Transformador de Visión con Escaneo Disperso (SSViT). Experimentos extensivos demuestran el desempeño sobresaliente de SSViT en una variedad de tareas. Específicamente, en la clasificación ImageNet, sin supervisión adicional ni datos de entrenamiento extras, SSViT alcanza precisiones top-1 de 84.4\%/85.7\% con 4.4G/18.2G FLOPs. SSViT también sobresale en tareas descendentes como detección de objetos, segmentación de instancias y segmentación semántica. Su robustez se valida además en diversos conjuntos de datos. El código estará disponible en https://github.com/qhfan/SSViT.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qihang Fan

Huaibo Huang

Mingrui Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Transformador de Visión con Prioridad de Escaneo Disperso

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider