February 21, 2024Open Access

Bench: Extendiendo la Evaluación de Contextos Largos Más Allá de 100K Tokens

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Procesar y razonar sobre contextos largos es crucial para muchas aplicaciones prácticas de los Modelos de Lenguaje Extensos (LLMs), como la comprensión de documentos y la construcción de agentes. A pesar de los recientes avances en hacer que los LLMs procesen contextos con más de 100K tokens, actualmente falta un benchmark estandarizado para evaluar esta capacidad de contexto largo. Los benchmarks públicos existentes típicamente se centran en contextos de alrededor de 10K tokens, lo que limita la evaluación y comparación de los LLMs en el procesamiento de contextos más largos. En este artículo, proponemos Bench, el primer benchmark para LLM que presenta una longitud promedio de datos que supera los 100K tokens. Bench comprende tareas sintéticas y realistas que abarcan dominios diversos, presentadas tanto en inglés como en chino. Las tareas en Bench están diseñadas para requerir una buena comprensión de dependencias largas en los contextos y hacen que simplemente recuperar un número limitado de pasajes del contexto no sea suficiente para estas tareas. En nuestros experimentos, basados en Bench, evaluamos los LLMs propietarias y de código abierto más avanzadas, adaptadas para el procesamiento de contextos largos. Los resultados indican que los LLMs actuales para contextos largos aún requieren avances significativos para procesar efectivamente contextos de más de 100K tokens. Además, presentamos tres análisis interesantes sobre el comportamiento de los LLMs al procesar contextos largos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xinrong Zhang

Yingfa Chen

Shengding Hu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bench: Extendiendo la Evaluación de Contextos Largos Más Allá de 100K Tokens

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider