Los puntos clave no están disponibles para este artículo en este momento.
Evaluar el rendimiento de los Modelos de Lenguaje Grande Multimodales (MLLMs), que integran tanto nubes de puntos como lenguaje, presenta desafíos significativos. La falta de una evaluación integral dificulta determinar si estos modelos realmente representan avances, lo que a su vez impide un progreso adicional en el campo. Las evaluaciones actuales dependen en gran medida de tareas de clasificación y subtitulado, sin proporcionar una valoración completa de los MLLMs. Existe una necesidad apremiante de un método de evaluación más sofisticado, capaz de analizar a fondo la comprensión espacial y las capacidades expresivas de estos modelos. Para abordar estos problemas, presentamos un punto de referencia 3D escalable, acompañado de un conjunto de datos de ajuste por instrucciones a gran escala denominado 3DBench, que ofrece una plataforma extensible para una evaluación exhaustiva de los MLLMs. Específicamente, establecemos un punto de referencia que abarca una amplia gama de escalas espaciales y semánticas, desde el nivel de objeto hasta el nivel de escena, abordando tanto tareas de percepción como de planificación. Además, presentamos una metodología rigurosa para la construcción automática de conjuntos de datos escalables de ajuste por instrucciones 3D, cubriendo 10 tareas multimodales diversas con más de 0.23 millones de pares pregunta-respuesta generados en total. Experimentos exhaustivos evaluando modelos MLLMs actuales, comparaciones con conjuntos de datos existentes y variaciones en los protocolos de entrenamiento demuestran la superioridad de 3DBench, ofreciendo valiosas perspectivas sobre las limitaciones actuales y posibles direcciones de investigación.
Building similarity graph...
Analyzing shared references across papers
Loading...
Junjie Zhang
Tianci Hu
Xiaoshui Huang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6e2eeb6db64358765eda4 — DOI: https://doi.org/10.48550/arxiv.2404.14678
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: