June 25, 2024Open Access

No dejar ningún documento atrás: Evaluación comparativa de LLMs de contexto largo con preguntas y respuestas extendidas en múltiples documentos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las capacidades de modelado de contexto largo han recibido una atención generalizada, lo que ha llevado a la aparición de Modelos de Lenguaje Grandes (LLMs) con ventanas de ultra-contexto. Mientras tanto, los puntos de referencia para evaluar los LLMs de contexto largo están gradualmente poniéndose al día. Sin embargo, los puntos de referencia existentes usan textos ruidosos irrelevantes para extender artificialmente la longitud de los casos de prueba, lo que se desvía de los escenarios reales de aplicaciones de contexto largo. Para cerrar esta brecha, proponemos un nuevo punto de referencia de contexto largo, Loong, que se alinea con escenarios realistas mediante preguntas y respuestas extendidas en múltiples documentos. A diferencia de las preguntas típicas en documentos, en los casos de prueba de Loong, cada documento es relevante para la respuesta final; ignorar cualquier documento conllevará el fallo de la respuesta. Además, Loong introduce cuatro tipos de tareas con una variedad de longitudes de contexto: Localización de Punto Focal, Comparación, Agrupamiento y Cadena de Razonamiento, para facilitar una evaluación más realista y exhaustiva de la comprensión de contexto largo. Experimentos exhaustivos indican que los modelos de lenguaje de contexto largo existentes aún muestran un potencial considerable para ser mejorados. La generación aumentada por recuperación (RAG) logra un rendimiento pobre, demostrando que Loong puede evaluar de manera fiable las capacidades de modelado de contexto largo del modelo.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Minzheng Wang

Longze Chen

Cheng Fu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

No dejar ningún documento atrás: Evaluación comparativa de LLMs de contexto largo con preguntas y respuestas extendidas en múltiples documentos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider