April 2, 2024Open Access

Segmentación de Objetos de Video Escalable con Mecanismo de Identificación

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Este artículo analiza los desafíos para lograr un modelado multi-objeto escalable y efectivo para la Segmentación de Objetos de Video (VOS) semi-supervisada. Los métodos previos de VOS decodifican características con un solo objeto positivo, lo que limita el aprendizaje de la representación multi-objeto ya que deben coincidir y segmentar cada objetivo por separado en escenarios con múltiples objetos. Además, las técnicas anteriores atendían objetivos específicos de aplicación y carecían de la flexibilidad para cumplir diferentes requerimientos de velocidad y precisión. Para abordar estos problemas, presentamos dos enfoques innovadores, Asociando Objetos con Transformers (AOT) y Asociando Objetos con Transformers Escalables (AOST). En la búsqueda de un modelado multi-objeto efectivo, AOT introduce el mecanismo de Identificación (ID) para asignar a cada objeto una identidad única. Este enfoque permite que la red modele las asociaciones entre todos los objetos simultáneamente, facilitando así el seguimiento y segmentación de objetos en una sola pasada de la red. Para enfrentar el desafío del despliegue inflexible, AOST integra además transformers escalables de largo y corto plazo que incorporan supervisión escalable y atención basada en ID capa por capa. Esto habilita por primera vez la escalabilidad arquitectónica en línea en VOS y supera las limitaciones de representación de los embeddings de ID. Dada la ausencia de un benchmark para VOS con anotaciones multi-objeto densas, proponemos un desafiante benchmark de Segmentación de Objetos de Video en la Naturaleza (VOSW) para validar nuestros enfoques. Evaluamos varias variantes de AOT y AOST mediante experimentos exhaustivos en VOSW y cinco benchmarks comúnmente usados de VOS, incluyendo YouTube-VOS 2018 y 2019 Val, DAVIS-2017 Val y Test, y DAVIS-2016. Nuestros enfoques superan a los competidores del estado del arte y muestran una eficiencia y escalabilidad excepcionales consistentemente en los seis benchmarks. Además, logramos notablemente la posición 1^{st} en el 3.er Desafío a Gran Escala de Segmentación de Objetos de Video. Página del proyecto: https: //github. com/yoxu515/aot-benchmark.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zongxin Yang

Jiaxu Miao

Yunchao Wei

Journals

IEEE Transactions on Pattern Analysis and Machine Intelligence

Actions

Institutions

Zhejiang University

Sun Yat-sen University

Beijing Jiaotong University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Segmentación de Objetos de Video Escalable con Mecanismo de Identificación

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider