What type of study is this?

This is a Experimental Study study.

September 29, 2025Open Access

100-LongBench: Bewerten de facto Long-Context Benchmarks tatsächlich die Fähigkeit zum Umgang mit langem Kontext?

Key Points

Der neue Benchmark bewertet wirksam die Langzeitkontext-Fähigkeiten von LLMs und adressiert gegenwärtige Einschränkungen.
Experimente zeigen, dass bestehende Benchmarks es versäumen, Grundleistungsfähigkeit von echter Langzeitkontext-Fähigkeit zu trennen.
Die Studie stellt Metriken vor, die Langzeitkontextleistung unterscheiden und Modellvergleiche verbessern.
Die Verwendung fixer Eingabelängen in Benchmarks beschränkt deren Anwendbarkeit, wie dieser neue längenkontrollierbare Ansatz zeigt.

Abstract

Die Fähigkeit, lange Kontexte zu verarbeiten, gilt als eine der wichtigsten Fähigkeiten von LLMs, da ein wirklich kontextfähiges LLM den Nutzern ermöglicht, viele ursprünglich ermüdende Aufgaben mühelos zu bewältigen – z. B. das Lesen eines umfangreichen Dokuments, um Antworten zu finden, statt das LLM direkt zu befragen. Bestehende Benchmark-Tests zur Langzeitkontextbewertung auf der Basis realer Aufgaben haben jedoch zwei wesentliche Mängel. Erstens bieten Benchmarks wie LongBench häufig keine geeigneten Metriken, um die Langzeitkontext-Performance von der Grundfähigkeit des Modells zu trennen, was den Modellvergleich erschwert. Zweitens sind solche Benchmarks meist mit festen Eingabelängen konstruiert, was ihre Anwendbarkeit auf verschiedene Modelle einschränkt und nicht offenbart, wann ein Modell zu versagen beginnt. Um diese Probleme zu beheben, stellen wir einen längenkontrollierbaren Langzeitkontext-Benchmark sowie eine neuartige Metrik vor, die Grundwissen von tatsächlichen Langzeitkontext-Fähigkeiten entkoppelt. Experimente zeigen die Überlegenheit unseres Ansatzes bei der effektiven Bewertung von LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yang Wang

Hongye Jin

Shaochen Zhong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

100-LongBench: Bewerten de facto Long-Context Benchmarks tatsächlich die Fähigkeit zum Umgang mit langem Kontext?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider