Los puntos clave no están disponibles para este artículo en este momento.
Las capacidades de modelado de contexto largo han recibido una atención generalizada, lo que ha llevado a la aparición de Modelos de Lenguaje Grandes (LLMs) con ventanas de ultra-contexto. Mientras tanto, los puntos de referencia para evaluar los LLMs de contexto largo están gradualmente poniéndose al día. Sin embargo, los puntos de referencia existentes usan textos ruidosos irrelevantes para extender artificialmente la longitud de los casos de prueba, lo que se desvía de los escenarios reales de aplicaciones de contexto largo. Para cerrar esta brecha, proponemos un nuevo punto de referencia de contexto largo, Loong, que se alinea con escenarios realistas mediante preguntas y respuestas extendidas en múltiples documentos. A diferencia de las preguntas típicas en documentos, en los casos de prueba de Loong, cada documento es relevante para la respuesta final; ignorar cualquier documento conllevará el fallo de la respuesta. Además, Loong introduce cuatro tipos de tareas con una variedad de longitudes de contexto: Localización de Punto Focal, Comparación, Agrupamiento y Cadena de Razonamiento, para facilitar una evaluación más realista y exhaustiva de la comprensión de contexto largo. Experimentos exhaustivos indican que los modelos de lenguaje de contexto largo existentes aún muestran un potencial considerable para ser mejorados. La generación aumentada por recuperación (RAG) logra un rendimiento pobre, demostrando que Loong puede evaluar de manera fiable las capacidades de modelado de contexto largo del modelo.
Building similarity graph...
Analyzing shared references across papers
Loading...
Minzheng Wang
Longze Chen
Cheng Fu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e636c5b6db6435875c8b29 — DOI: https://doi.org/10.48550/arxiv.2406.17419
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: