Los puntos clave no están disponibles para este artículo en este momento.
El rápido progreso en los Modelos de Lenguaje Multimodales Grandes (MLLMs) ha avanzado significativamente su capacidad para procesar y comprender información visual y textual compleja. Sin embargo, la integración de múltiples imágenes y contextos textuales extensos sigue siendo un desafío debido a la limitación inherente en la capacidad de los modelos para manejar secuencias largas de entrada de manera eficiente. En este artículo, presentamos SEEKER, un modelo de lenguaje multimodal grande diseñado para abordar este problema. SEEKER busca optimizar la codificación compacta de texto largo comprimiendo la secuencia de texto en el espacio visual de píxeles a través de imágenes, lo que permite al modelo manejar texto largo dentro de un presupuesto fijo de longitud de tokens de manera eficiente. Nuestros experimentos empíricos en seis tareas multimodales con contexto largo demuestran que SEEKER puede aprovechar menos tokens de imagen para transmitir la misma cantidad de información textual en comparación con el enfoque basado en OCR, y es más eficiente en la comprensión de entradas multimodales de forma larga y en la generación de salidas textuales extensas, superando a todos los MLLMs propietarios y de código abierto existentes por márgenes significativos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yujie Lu
Xiujun Li
Tsu-Jui Fu
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e68cfdb6db643587614c13 — DOI: https://doi.org/10.48550/arxiv.2405.14213