February 21, 2024Open Access

Bench : Étendre l'évaluation des longs contextes au-delà de 100 000 tokens

Key Points

Key points are not available for this paper at this time.

Abstract

Le traitement et le raisonnement sur de longs contextes sont essentiels pour de nombreuses applications pratiques des grands modèles de langage (LLM), telles que la compréhension de documents et la construction d'agents. Malgré les progrès récents permettant aux LLM de traiter des contextes de plus de 100 000 tokens, il n'existe actuellement pas de benchmark standardisé pour évaluer cette capacité aux longs contextes. Les benchmarks publics existants portent généralement sur des contextes d'environ 10 000 tokens, limitant ainsi l'évaluation et la comparaison des LLM dans le traitement de contextes plus longs. Dans cet article, nous proposons Bench, le premier benchmark LLM avec une longueur moyenne de données dépassant 100 000 tokens. Bench comprend des tâches synthétiques et réalistes couvrant divers domaines, présentées en anglais et en chinois. Les tâches de Bench sont conçues pour nécessiter une bonne compréhension des dépendances longues dans les contextes, rendant insuffisante la simple récupération d'un nombre limité de passages. Dans nos expériences basées sur Bench, nous évaluons des LLM propriétaires et open source à la pointe, adaptés au traitement de longs contextes. Les résultats indiquent que les LLM existants pour longs contextes nécessitent encore des avancées significatives pour traiter efficacement des contextes de plus de 100 000 tokens. Nous présentons également trois analyses intéressantes concernant le comportement des LLM face au traitement de longs contextes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xinrong Zhang

Yingfa Chen

Shengding Hu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bench : Étendre l'évaluation des longs contextes au-delà de 100 000 tokens

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider