Die Fähigkeit, lange Kontexte zu verarbeiten, gilt als eine der wichtigsten Fähigkeiten von LLMs, da ein wirklich kontextfähiges LLM den Nutzern ermöglicht, viele ursprünglich ermüdende Aufgaben mühelos zu bewältigen – z. B. das Lesen eines umfangreichen Dokuments, um Antworten zu finden, statt das LLM direkt zu befragen. Bestehende Benchmark-Tests zur Langzeitkontextbewertung auf der Basis realer Aufgaben haben jedoch zwei wesentliche Mängel. Erstens bieten Benchmarks wie LongBench häufig keine geeigneten Metriken, um die Langzeitkontext-Performance von der Grundfähigkeit des Modells zu trennen, was den Modellvergleich erschwert. Zweitens sind solche Benchmarks meist mit festen Eingabelängen konstruiert, was ihre Anwendbarkeit auf verschiedene Modelle einschränkt und nicht offenbart, wann ein Modell zu versagen beginnt. Um diese Probleme zu beheben, stellen wir einen längenkontrollierbaren Langzeitkontext-Benchmark sowie eine neuartige Metrik vor, die Grundwissen von tatsächlichen Langzeitkontext-Fähigkeiten entkoppelt. Experimente zeigen die Überlegenheit unseres Ansatzes bei der effektiven Bewertung von LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Wang
Hongye Jin
Shaochen Zhong
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68da58e0c1728099cfd118c8 — DOI: https://doi.org/10.48550/arxiv.2505.19293
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: