June 25, 2024Open Access

Kein Dokument zurücklassen: Benchmarking von Langzeitkontext-LLMs mit erweitertem Multi-Dokument-QA

Key Points

Key points are not available for this paper at this time.

Abstract

Fähigkeiten zur Modellierung von Langzeitkontexten haben breite Aufmerksamkeit erfahren, was zur Entstehung von Large Language Models (LLMs) mit ultraweiten Kontextfenstern führte. Gleichzeitig holen Benchmarks zur Bewertung von Langzeitkontext-LLMs allmählich auf. Bestehende Benchmarks verwenden jedoch irrelevante Rauschtexte, um die Länge der Testfälle künstlich zu verlängern, was von realen Anwendungsszenarien mit Langzeitkontexten abweicht. Um diese Lücke zu schließen, schlagen wir einen neuartigen Langzeitkontext-Benchmark namens Loong vor, der durch erweitertes Multi-Dokument-Frage-Antworten (QA) realistische Szenarien abbildet. Anders als typische Dokument-QA sind in Loongs Testfällen alle Dokumente relevant für die finale Antwort; das Ignorieren eines Dokuments führt zum Scheitern der Antwort. Zudem führt Loong vier Aufgabentypen mit unterschiedlichen Kontextlängen ein: Spotlight-Lokalisierung, Vergleich, Clustering und Ketten des Denkens, um eine realistischere und umfassendere Bewertung des Verständnisses von Langzeitkontexten zu ermöglichen. Umfangreiche Experimente zeigen, dass vorhandene Langzeitkontext-Sprachmodelle noch erhebliches Verbesserungspotential besitzen. Retrieval-gestützte Generierung (RAG) erzielt schlechte Ergebnisse, was beweist, dass Loong zuverlässig die Fähigkeiten zur Langzeitkontextmodellierung der Modelle bewerten kann.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Minzheng Wang

Longze Chen

Cheng Fu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Kein Dokument zurücklassen: Benchmarking von Langzeitkontext-LLMs mit erweitertem Multi-Dokument-QA

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider