May 23, 2024Open Access

De texto a píxel: Avanzando en la comprensión de contextos largos en MLLMs

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El rápido progreso en los Modelos de Lenguaje Multimodales Grandes (MLLMs) ha avanzado significativamente su capacidad para procesar y comprender información visual y textual compleja. Sin embargo, la integración de múltiples imágenes y contextos textuales extensos sigue siendo un desafío debido a la limitación inherente en la capacidad de los modelos para manejar secuencias largas de entrada de manera eficiente. En este artículo, presentamos SEEKER, un modelo de lenguaje multimodal grande diseñado para abordar este problema. SEEKER busca optimizar la codificación compacta de texto largo comprimiendo la secuencia de texto en el espacio visual de píxeles a través de imágenes, lo que permite al modelo manejar texto largo dentro de un presupuesto fijo de longitud de tokens de manera eficiente. Nuestros experimentos empíricos en seis tareas multimodales con contexto largo demuestran que SEEKER puede aprovechar menos tokens de imagen para transmitir la misma cantidad de información textual en comparación con el enfoque basado en OCR, y es más eficiente en la comprensión de entradas multimodales de forma larga y en la generación de salidas textuales extensas, superando a todos los MLLMs propietarios y de código abierto existentes por márgenes significativos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yujie Lu

Xiujun Li

Tsu-Jui Fu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

De texto a píxel: Avanzando en la comprensión de contextos largos en MLLMs

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study