Los puntos clave no están disponibles para este artículo en este momento.
En los últimos años, los Transformadores han logrado un progreso notable en tareas de visión por computadora. Sin embargo, su modelado global a menudo conlleva una carga computacional sustancial, en marcado contraste con el procesamiento eficiente de la información del ojo humano. Inspirados en el mecanismo de escaneo disperso del ojo humano, proponemos un mecanismo de Auto-Atención de Escaneo Disperso (S³A). Este mecanismo predefine una serie de Anclas de Interés para cada token y emplea atención local para modelar eficientemente la información espacial alrededor de estas anclas, evitando el modelado global redundante y la atención excesiva en información local. Este enfoque refleja la funcionalidad del ojo humano y reduce significativamente la carga computacional de los modelos de visión. Basándonos en S³A, introducimos el Transformador de Visión con Escaneo Disperso (SSViT). Experimentos extensivos demuestran el desempeño sobresaliente de SSViT en una variedad de tareas. Específicamente, en la clasificación ImageNet, sin supervisión adicional ni datos de entrenamiento extras, SSViT alcanza precisiones top-1 de 84.4\%/85.7\% con 4.4G/18.2G FLOPs. SSViT también sobresale en tareas descendentes como detección de objetos, segmentación de instancias y segmentación semántica. Su robustez se valida además en diversos conjuntos de datos. El código estará disponible en https://github.com/qhfan/SSViT.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qihang Fan
Huaibo Huang
Mingrui Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Fan et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e68e7db6db643587615cb3 — DOI: https://doi.org/10.48550/arxiv.2405.13335
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: