May 9, 2024Open Access

Explorando las capacidades de grandes modelos multimodales en texto denso

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Aunque los grandes modelos multimodales (LMM) han mostrado un progreso notable en tareas multimodales, sus capacidades en tareas que involucran contenido textual denso aún deben explorarse completamente. El texto denso, que contiene información importante, se encuentra a menudo en documentos, tablas y descripciones de productos. Comprender el texto denso nos permite obtener información más precisa, ayudando a tomar mejores decisiones. Para explorar más las capacidades de los LMM en tareas de texto complejas, proponemos el conjunto de datos DT-VQA, con 170k pares de preguntas y respuestas. En este artículo, realizamos una evaluación integral de GPT4V, Gemini y varios LMM de código abierto en nuestro conjunto de datos, revelando sus fortalezas y debilidades. Además, evaluamos la efectividad de dos estrategias para LMM: ingeniería de indicaciones y ajuste fino en tareas específicas. Encontramos que incluso con conjuntos de datos de entrenamiento etiquetados automáticamente, se pueden lograr mejoras significativas en el desempeño del modelo. Esperamos que esta investigación promueva el estudio de los LMM en tareas de texto denso. El código será publicado en https://github.com/Yuliang-Liu/MultimodalOCR.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuo Zhang

Biao Yang

Zhang Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Explorando las capacidades de grandes modelos multimodales en texto denso

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider