Die Fähigkeit zum Spiel dient als Indikator zur Bewertung der strategischen Denkfähigkeit großer Sprachmodelle (LLMs). Während die meisten bestehenden Studien sich auf Leistungskennzahlen stützen, die aufgrund von Variationen im Verhalten des Gegners und der Spielstruktur nicht robust genug sind, schlagen wir zur Überwindung dieser Einschränkung den Cognitive Hierarchy Benchmark (CHBench) vor, ein neuartiges Bewertungsframework, das von den kognitiven Hierarchiemodellen der Verhaltensökonomie inspiriert ist. Wir gehen davon aus, dass Agenten begrenzte Rationalität besitzen – verschiedene Agenten verhalten sich auf unterschiedlichen Denkstufen/-ebenen. Wir bewerten die strategische Denkfähigkeit von LLMs durch ein dreiphasiges systematisches Framework, wobei Verhaltensdaten von sechs hochmodernen LLMs über fünfzehn sorgfältig ausgewählte Normalformspiele verwendet werden. Experimente zeigen, dass LLMs konsistente strategische Denkebenen über verschiedene Gegner hinweg zeigen, was die Robustheit und Generalisierungsfähigkeit des Frameworks bestätigt. Wir analysieren auch die Auswirkungen von zwei Schlüsselmechanismen (Chat-Mechanismus und Erinnerungsmechanismus) auf die Leistung im strategischen Denken. Die Ergebnisse zeigen, dass der Chat-Mechanismus die strategische Denkfähigkeit signifikant beeinträchtigt, während der Erinnerungsmechanismus diese verbessert. Diese Erkenntnisse positionieren CHBench als vielversprechendes Werkzeug zur Bewertung der Fähigkeiten von LLMs mit erheblichem Potenzial für zukünftige Forschung und praktische Anwendungen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongtao Liu
Zhicheng Du
Zihe Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68d6e1978b2b6861e4c40312 — DOI: https://doi.org/10.48550/arxiv.2508.11944
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: