November 22, 2021Open Access

Florence: Un nuevo modelo base para visión por computadora

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La comprensión visual automatizada de nuestro mundo diverso y abierto exige que los modelos de visión por computadora generalicen bien con una personalización mínima para tareas específicas, similar a la visión humana. Los modelos base de visión por computadora, entrenados en conjuntos de datos variados y a gran escala y que pueden adaptarse a una amplia gama de tareas posteriores, son cruciales para esta misión de resolver aplicaciones reales de visión por computadora. Mientras que los modelos base de visión existentes como CLIP, ALIGN y Wu Dao 2.0 se enfocan principalmente en mapear imágenes y representaciones textuales a una representación compartida multimodal, presentamos un nuevo modelo base de visión por computadora, Florence, para expandir las representaciones desde lo grueso (escena) a lo fino (objeto), de estático (imágenes) a dinámico (videos), y de RGB a múltiples modalidades (leyenda, profundidad). Al incorporar representaciones visual-lingüísticas universales a partir de datos a escala web de imágenes y texto, nuestro modelo Florence puede adaptarse fácilmente a diversas tareas de visión por computadora, como clasificación, recuperación, detección de objetos, VQA, generación de leyendas de imágenes, recuperación de video y reconocimiento de acciones. Además, Florence demuestra un desempeño sobresaliente en muchos tipos de aprendizaje por transferencia: afinamiento completo, sondeo lineal, transferencia con pocos ejemplos y transferencia sin ejemplos para imágenes y objetos novedosos. Todas estas propiedades son críticas para que nuestro modelo base de visión sirva a tareas generales de visión. Florence alcanza nuevos resultados de vanguardia en la mayoría de 44 benchmarks representativos, por ejemplo, clasificación zero-shot en ImageNet-1K con una precisión top-1 de 83.74 y top-5 de 97.18, 62.4 mAP en afinamiento fino con COCO, 80.36 en VQA y 87.8 en Kinetics-600.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lu Yuan

Dongdong Chen

Yi‐Ling Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Florence: Un nuevo modelo base para visión por computadora

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider