Los puntos clave no están disponibles para este artículo en este momento.
Aunque los grandes modelos multimodales (LMM) han mostrado un progreso notable en tareas multimodales, sus capacidades en tareas que involucran contenido textual denso aún deben explorarse completamente. El texto denso, que contiene información importante, se encuentra a menudo en documentos, tablas y descripciones de productos. Comprender el texto denso nos permite obtener información más precisa, ayudando a tomar mejores decisiones. Para explorar más las capacidades de los LMM en tareas de texto complejas, proponemos el conjunto de datos DT-VQA, con 170k pares de preguntas y respuestas. En este artículo, realizamos una evaluación integral de GPT4V, Gemini y varios LMM de código abierto en nuestro conjunto de datos, revelando sus fortalezas y debilidades. Además, evaluamos la efectividad de dos estrategias para LMM: ingeniería de indicaciones y ajuste fino en tareas específicas. Encontramos que incluso con conjuntos de datos de entrenamiento etiquetados automáticamente, se pueden lograr mejoras significativas en el desempeño del modelo. Esperamos que esta investigación promueva el estudio de los LMM en tareas de texto denso. El código será publicado en https://github.com/Yuliang-Liu/MultimodalOCR.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuo Zhang
Biao Yang
Zhang Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6aec4b6db6435876310ac — DOI: https://doi.org/10.48550/arxiv.2405.06706
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: