Key points are not available for this paper at this time.
Le traitement et le raisonnement sur de longs contextes sont essentiels pour de nombreuses applications pratiques des grands modèles de langage (LLM), telles que la compréhension de documents et la construction d'agents. Malgré les progrès récents permettant aux LLM de traiter des contextes de plus de 100 000 tokens, il n'existe actuellement pas de benchmark standardisé pour évaluer cette capacité aux longs contextes. Les benchmarks publics existants portent généralement sur des contextes d'environ 10 000 tokens, limitant ainsi l'évaluation et la comparaison des LLM dans le traitement de contextes plus longs. Dans cet article, nous proposons Bench, le premier benchmark LLM avec une longueur moyenne de données dépassant 100 000 tokens. Bench comprend des tâches synthétiques et réalistes couvrant divers domaines, présentées en anglais et en chinois. Les tâches de Bench sont conçues pour nécessiter une bonne compréhension des dépendances longues dans les contextes, rendant insuffisante la simple récupération d'un nombre limité de passages. Dans nos expériences basées sur Bench, nous évaluons des LLM propriétaires et open source à la pointe, adaptés au traitement de longs contextes. Les résultats indiquent que les LLM existants pour longs contextes nécessitent encore des avancées significatives pour traiter efficacement des contextes de plus de 100 000 tokens. Nous présentons également trois analyses intéressantes concernant le comportement des LLM face au traitement de longs contextes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinrong Zhang
Yingfa Chen
Shengding Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Mercredi,) ont étudié cette question.
www.synapsesocial.com/papers/68e785a2b6db6435876f7f8a — DOI: https://doi.org/10.48550/arxiv.2402.13718
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: