What type of study is this?

This is a Experimental Study study.

October 10, 2025Open Access

Kann ein LLM einen Graphen induzieren? Untersuchung von Memory Drift und Kontextlänge

Key Points

LLMs zeigen Memory Drift bei kürzeren effektiven Kontextlängen, was ihre Leistung bei relationalen Schlussfolgerungsaufgaben beeinträchtigt.
Bei der Aufgabe, Graphen aus verrauschtem Text zu induzieren, zeigen LLMs erhebliche Einschränkungen im Umgang mit strukturiertem Wissen.
Evaluationsbenchmarks repräsentieren die Fähigkeiten von LLMs in komplexen Denk-Szenarien möglicherweise nicht genau und erfordern Aktualisierungen.
Selbst auf Schlussfolgerungen spezialisierte Modelle wie OpenAI o1 sind anfällig für Memory Drift, was den Bedarf an architektonischen Anpassungen unterstreicht.

Abstract

Kürzlich vorgeschlagene Evaluationsbenchmarks zielen darauf ab, die effektive Kontextlänge und die Vergessensneigung großer Sprachmodelle (LLMs) zu charakterisieren. Diese Benchmarks basieren jedoch oft auf simplistischen "Nadel-im-Heuhaufen"-Such- oder Fortsetzungsaufgaben, die die Leistungsfähigkeit dieser Modelle in informationsdichten Szenarien möglicherweise nicht genau widerspiegeln. Daher plädieren wir dafür, diese Modelle nicht einfach nur anhand der nächsten Token-Vorhersage zu bewerten, sondern anhand komplexerer Denkaufgaben, die von ihnen verlangen, strukturierte relationale Wissensstrukturen aus Texten abzuleiten – etwa Graphen aus potenziell verrauschten natürlichen Sprachinhalten. Während der Eingangstext als in Graphenform generiert betrachtet werden kann, ist seine Struktur nicht explizit und Verbindungen müssen aus verteilten textuellen Hinweisen induziert werden, die durch lange Kontexte getrennt und mit irrelevanten Informationen durchsetzt sind. Unsere Ergebnisse zeigen, dass LLMs bei dieser Art relationaler Schlussfolgerungen Memory Drift und kontextuelles Vergessen bereits bei wesentlich kürzeren effektiven Längen beginnen als bestehende Benchmarks suggerieren. Auf dieser Grundlage geben wir Empfehlungen für die optimale Nutzung populärer LLMs bei komplexen Denkaufgaben. Außerdem zeigen wir, dass selbst für Schlussfolgerungen spezialisierte Modelle wie OpenAI o1 in diesen Szenarien anfällig für frühe Memory Drift sind. Diese Ergebnisse weisen auf erhebliche Beschränkungen der Modelle in der Fähigkeit hin, strukturiertes Wissen aus unstrukturierten Eingaben zu abstrahieren, und verdeutlichen den Bedarf an architektonischen Anpassungen zur Verbesserung der Langstrecken-Schlussfolgerung.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Raquib Bin Yousuf

Aadyant Khatri

Shengzhe Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Kann ein LLM einen Graphen induzieren? Untersuchung von Memory Drift und Kontextlänge

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider