Los puntos clave no están disponibles para este artículo en este momento.
La comprensión visual automatizada de nuestro mundo diverso y abierto exige que los modelos de visión por computadora generalicen bien con una personalización mínima para tareas específicas, similar a la visión humana. Los modelos base de visión por computadora, entrenados en conjuntos de datos variados y a gran escala y que pueden adaptarse a una amplia gama de tareas posteriores, son cruciales para esta misión de resolver aplicaciones reales de visión por computadora. Mientras que los modelos base de visión existentes como CLIP, ALIGN y Wu Dao 2.0 se enfocan principalmente en mapear imágenes y representaciones textuales a una representación compartida multimodal, presentamos un nuevo modelo base de visión por computadora, Florence, para expandir las representaciones desde lo grueso (escena) a lo fino (objeto), de estático (imágenes) a dinámico (videos), y de RGB a múltiples modalidades (leyenda, profundidad). Al incorporar representaciones visual-lingüísticas universales a partir de datos a escala web de imágenes y texto, nuestro modelo Florence puede adaptarse fácilmente a diversas tareas de visión por computadora, como clasificación, recuperación, detección de objetos, VQA, generación de leyendas de imágenes, recuperación de video y reconocimiento de acciones. Además, Florence demuestra un desempeño sobresaliente en muchos tipos de aprendizaje por transferencia: afinamiento completo, sondeo lineal, transferencia con pocos ejemplos y transferencia sin ejemplos para imágenes y objetos novedosos. Todas estas propiedades son críticas para que nuestro modelo base de visión sirva a tareas generales de visión. Florence alcanza nuevos resultados de vanguardia en la mayoría de 44 benchmarks representativos, por ejemplo, clasificación zero-shot en ImageNet-1K con una precisión top-1 de 83.74 y top-5 de 97.18, 62.4 mAP en afinamiento fino con COCO, 80.36 en VQA y 87.8 en Kinetics-600.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu Yuan
Dongdong Chen
Yi‐Ling Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuan et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a08a948afa0a1b8dbde0480 — DOI: https://doi.org/10.48550/arxiv.2111.11432
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: