Key points are not available for this paper at this time.
Fähigkeiten zur Modellierung von Langzeitkontexten haben breite Aufmerksamkeit erfahren, was zur Entstehung von Large Language Models (LLMs) mit ultraweiten Kontextfenstern führte. Gleichzeitig holen Benchmarks zur Bewertung von Langzeitkontext-LLMs allmählich auf. Bestehende Benchmarks verwenden jedoch irrelevante Rauschtexte, um die Länge der Testfälle künstlich zu verlängern, was von realen Anwendungsszenarien mit Langzeitkontexten abweicht. Um diese Lücke zu schließen, schlagen wir einen neuartigen Langzeitkontext-Benchmark namens Loong vor, der durch erweitertes Multi-Dokument-Frage-Antworten (QA) realistische Szenarien abbildet. Anders als typische Dokument-QA sind in Loongs Testfällen alle Dokumente relevant für die finale Antwort; das Ignorieren eines Dokuments führt zum Scheitern der Antwort. Zudem führt Loong vier Aufgabentypen mit unterschiedlichen Kontextlängen ein: Spotlight-Lokalisierung, Vergleich, Clustering und Ketten des Denkens, um eine realistischere und umfassendere Bewertung des Verständnisses von Langzeitkontexten zu ermöglichen. Umfangreiche Experimente zeigen, dass vorhandene Langzeitkontext-Sprachmodelle noch erhebliches Verbesserungspotential besitzen. Retrieval-gestützte Generierung (RAG) erzielt schlechte Ergebnisse, was beweist, dass Loong zuverlässig die Fähigkeiten zur Langzeitkontextmodellierung der Modelle bewerten kann.
Building similarity graph...
Analyzing shared references across papers
Loading...
Minzheng Wang
Longze Chen
Cheng Fu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Tue,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e636c5b6db6435875c8b29 — DOI: https://doi.org/10.48550/arxiv.2406.17419
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: