August 28, 2024Open Access

Una encuesta sobre la evaluación de modelos de lenguaje multimodales grandes

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje multimodales grandes (MLLMs) imitan el sistema de percepción y razonamiento humano al integrar potentes modelos de lenguaje grandes (LLMs) con varios codificadores de modalidades (por ejemplo, visión, audio), posicionando a los LLMs como el "cerebro" y a los distintos codificadores de modalidades como órganos sensoriales. Este marco dota a los MLLMs de capacidades similares a las humanas y sugiere una vía potencial para alcanzar la inteligencia artificial general (AGI). Con la aparición de MLLMs integrales como GPT-4V y Gemini, se han desarrollado multitud de métodos de evaluación para valorar sus capacidades en diferentes dimensiones. Este artículo presenta una revisión sistemática y completa de los métodos de evaluación de MLLMs, cubriendo los siguientes aspectos clave: (1) el contexto de los MLLMs y su evaluación; (2) "qué evaluar", revisando y categorizando las tareas de evaluación existentes basadas en las capacidades examinadas, incluyendo reconocimiento multimodal general, percepción, razonamiento y confianza, y aplicaciones específicas de dominio como sociología económica, ciencias naturales e ingeniería, uso médico, agentes de IA, teledetección, procesamiento de video y audio, análisis de nubes de puntos 3D, entre otros; (3) "dónde evaluar", que resume los bancos de pruebas de evaluación de MLLMs en generales y específicos; (4) "cómo evaluar", que revisa e ilustra los pasos y métricas de evaluación de MLLMs. Nuestro objetivo general es aportar ideas valiosas para los investigadores en el campo de evaluación de MLLMs, facilitando así el desarrollo de MLLMs más capaces y confiables. Enfatizamos que la evaluación debe considerarse una disciplina crítica, esencial para el avance en el campo de los MLLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiaxing Huang

J Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Una encuesta sobre la evaluación de modelos de lenguaje multimodales grandes

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider