Kürzlich vorgeschlagene Evaluationsbenchmarks zielen darauf ab, die effektive Kontextlänge und die Vergessensneigung großer Sprachmodelle (LLMs) zu charakterisieren. Diese Benchmarks basieren jedoch oft auf simplistischen "Nadel-im-Heuhaufen"-Such- oder Fortsetzungsaufgaben, die die Leistungsfähigkeit dieser Modelle in informationsdichten Szenarien möglicherweise nicht genau widerspiegeln. Daher plädieren wir dafür, diese Modelle nicht einfach nur anhand der nächsten Token-Vorhersage zu bewerten, sondern anhand komplexerer Denkaufgaben, die von ihnen verlangen, strukturierte relationale Wissensstrukturen aus Texten abzuleiten – etwa Graphen aus potenziell verrauschten natürlichen Sprachinhalten. Während der Eingangstext als in Graphenform generiert betrachtet werden kann, ist seine Struktur nicht explizit und Verbindungen müssen aus verteilten textuellen Hinweisen induziert werden, die durch lange Kontexte getrennt und mit irrelevanten Informationen durchsetzt sind. Unsere Ergebnisse zeigen, dass LLMs bei dieser Art relationaler Schlussfolgerungen Memory Drift und kontextuelles Vergessen bereits bei wesentlich kürzeren effektiven Längen beginnen als bestehende Benchmarks suggerieren. Auf dieser Grundlage geben wir Empfehlungen für die optimale Nutzung populärer LLMs bei komplexen Denkaufgaben. Außerdem zeigen wir, dass selbst für Schlussfolgerungen spezialisierte Modelle wie OpenAI o1 in diesen Szenarien anfällig für frühe Memory Drift sind. Diese Ergebnisse weisen auf erhebliche Beschränkungen der Modelle in der Fähigkeit hin, strukturiertes Wissen aus unstrukturierten Eingaben zu abstrahieren, und verdeutlichen den Bedarf an architektonischen Anpassungen zur Verbesserung der Langstrecken-Schlussfolgerung.
Building similarity graph...
Analyzing shared references across papers
Loading...
Raquib Bin Yousuf
Aadyant Khatri
Shengzhe Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Yousuf et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e865117ef2f04ca37e4cfd — DOI: https://doi.org/10.48550/arxiv.2510.03611
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: