Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje multimodales grandes (MLLMs) imitan el sistema de percepción y razonamiento humano al integrar potentes modelos de lenguaje grandes (LLMs) con varios codificadores de modalidades (por ejemplo, visión, audio), posicionando a los LLMs como el "cerebro" y a los distintos codificadores de modalidades como órganos sensoriales. Este marco dota a los MLLMs de capacidades similares a las humanas y sugiere una vía potencial para alcanzar la inteligencia artificial general (AGI). Con la aparición de MLLMs integrales como GPT-4V y Gemini, se han desarrollado multitud de métodos de evaluación para valorar sus capacidades en diferentes dimensiones. Este artículo presenta una revisión sistemática y completa de los métodos de evaluación de MLLMs, cubriendo los siguientes aspectos clave: (1) el contexto de los MLLMs y su evaluación; (2) "qué evaluar", revisando y categorizando las tareas de evaluación existentes basadas en las capacidades examinadas, incluyendo reconocimiento multimodal general, percepción, razonamiento y confianza, y aplicaciones específicas de dominio como sociología económica, ciencias naturales e ingeniería, uso médico, agentes de IA, teledetección, procesamiento de video y audio, análisis de nubes de puntos 3D, entre otros; (3) "dónde evaluar", que resume los bancos de pruebas de evaluación de MLLMs en generales y específicos; (4) "cómo evaluar", que revisa e ilustra los pasos y métricas de evaluación de MLLMs. Nuestro objetivo general es aportar ideas valiosas para los investigadores en el campo de evaluación de MLLMs, facilitando así el desarrollo de MLLMs más capaces y confiables. Enfatizamos que la evaluación debe considerarse una disciplina crítica, esencial para el avance en el campo de los MLLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiaxing Huang
J Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang et al. (miércoles) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e5a955b6db64358754366d — DOI: https://doi.org/10.48550/arxiv.2408.15769
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: