Los puntos clave no están disponibles para este artículo en este momento.
Este artículo analiza los desafíos para lograr un modelado multi-objeto escalable y efectivo para la Segmentación de Objetos de Video (VOS) semi-supervisada. Los métodos previos de VOS decodifican características con un solo objeto positivo, lo que limita el aprendizaje de la representación multi-objeto ya que deben coincidir y segmentar cada objetivo por separado en escenarios con múltiples objetos. Además, las técnicas anteriores atendían objetivos específicos de aplicación y carecían de la flexibilidad para cumplir diferentes requerimientos de velocidad y precisión. Para abordar estos problemas, presentamos dos enfoques innovadores, Asociando Objetos con Transformers (AOT) y Asociando Objetos con Transformers Escalables (AOST). En la búsqueda de un modelado multi-objeto efectivo, AOT introduce el mecanismo de Identificación (ID) para asignar a cada objeto una identidad única. Este enfoque permite que la red modele las asociaciones entre todos los objetos simultáneamente, facilitando así el seguimiento y segmentación de objetos en una sola pasada de la red. Para enfrentar el desafío del despliegue inflexible, AOST integra además transformers escalables de largo y corto plazo que incorporan supervisión escalable y atención basada en ID capa por capa. Esto habilita por primera vez la escalabilidad arquitectónica en línea en VOS y supera las limitaciones de representación de los embeddings de ID. Dada la ausencia de un benchmark para VOS con anotaciones multi-objeto densas, proponemos un desafiante benchmark de Segmentación de Objetos de Video en la Naturaleza (VOSW) para validar nuestros enfoques. Evaluamos varias variantes de AOT y AOST mediante experimentos exhaustivos en VOSW y cinco benchmarks comúnmente usados de VOS, incluyendo YouTube-VOS 2018 y 2019 Val, DAVIS-2017 Val y Test, y DAVIS-2016. Nuestros enfoques superan a los competidores del estado del arte y muestran una eficiencia y escalabilidad excepcionales consistentemente en los seis benchmarks. Además, logramos notablemente la posición 1^{st} en el 3.er Desafío a Gran Escala de Segmentación de Objetos de Video. Página del proyecto: https: //github. com/yoxu515/aot-benchmark.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zongxin Yang
Jiaxu Miao
Yunchao Wei
IEEE Transactions on Pattern Analysis and Machine Intelligence
Zhejiang University
Sun Yat-sen University
Beijing Jiaotong University
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e70a0bb6db6435876841f2 — DOI: https://doi.org/10.1109/tpami.2024.3383592
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: