Los puntos clave no están disponibles para este artículo en este momento.
Procesar y razonar sobre contextos largos es crucial para muchas aplicaciones prácticas de los Modelos de Lenguaje Extensos (LLMs), como la comprensión de documentos y la construcción de agentes. A pesar de los recientes avances en hacer que los LLMs procesen contextos con más de 100K tokens, actualmente falta un benchmark estandarizado para evaluar esta capacidad de contexto largo. Los benchmarks públicos existentes típicamente se centran en contextos de alrededor de 10K tokens, lo que limita la evaluación y comparación de los LLMs en el procesamiento de contextos más largos. En este artículo, proponemos Bench, el primer benchmark para LLM que presenta una longitud promedio de datos que supera los 100K tokens. Bench comprende tareas sintéticas y realistas que abarcan dominios diversos, presentadas tanto en inglés como en chino. Las tareas en Bench están diseñadas para requerir una buena comprensión de dependencias largas en los contextos y hacen que simplemente recuperar un número limitado de pasajes del contexto no sea suficiente para estas tareas. En nuestros experimentos, basados en Bench, evaluamos los LLMs propietarias y de código abierto más avanzadas, adaptadas para el procesamiento de contextos largos. Los resultados indican que los LLMs actuales para contextos largos aún requieren avances significativos para procesar efectivamente contextos de más de 100K tokens. Además, presentamos tres análisis interesantes sobre el comportamiento de los LLMs al procesar contextos largos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinrong Zhang
Yingfa Chen
Shengding Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e785a2b6db6435876f7f8a — DOI: https://doi.org/10.48550/arxiv.2402.13718
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: