What type of study is this?

This is a Cohort Study study (also classified as: Experimental Study).

September 24, 2025Open Access

CHBench: Ein Cognitive Hierarchy Benchmark zur Bewertung der strategischen Denkfähigkeit von LLMs

Key Points

LLMs zeigen über verschiedene Normalformspiele hinweg konsistentes strategisches Denken und bestätigen somit die Robustheit des vorgeschlagenen Benchmarks.
Experimente zeigen unterschiedliche Ebenen strategischen Denkens, die durch Chat- und Erinnerungsmechanismen in LLMs beeinflusst werden.
Ein systematisches dreiphasiges Framework wurde zur Bewertung der strategischen Entscheidungsfindung von sechs hochmodernen LLMs verwendet.
Die Erkenntnisse von CHBench haben das Potenzial, zukünftige Forschung und praktische Bewertung der Fähigkeiten von LLMs zu verbessern.

Abstract

Die Fähigkeit zum Spiel dient als Indikator zur Bewertung der strategischen Denkfähigkeit großer Sprachmodelle (LLMs). Während die meisten bestehenden Studien sich auf Leistungskennzahlen stützen, die aufgrund von Variationen im Verhalten des Gegners und der Spielstruktur nicht robust genug sind, schlagen wir zur Überwindung dieser Einschränkung den Cognitive Hierarchy Benchmark (CHBench) vor, ein neuartiges Bewertungsframework, das von den kognitiven Hierarchiemodellen der Verhaltensökonomie inspiriert ist. Wir gehen davon aus, dass Agenten begrenzte Rationalität besitzen – verschiedene Agenten verhalten sich auf unterschiedlichen Denkstufen/-ebenen. Wir bewerten die strategische Denkfähigkeit von LLMs durch ein dreiphasiges systematisches Framework, wobei Verhaltensdaten von sechs hochmodernen LLMs über fünfzehn sorgfältig ausgewählte Normalformspiele verwendet werden. Experimente zeigen, dass LLMs konsistente strategische Denkebenen über verschiedene Gegner hinweg zeigen, was die Robustheit und Generalisierungsfähigkeit des Frameworks bestätigt. Wir analysieren auch die Auswirkungen von zwei Schlüsselmechanismen (Chat-Mechanismus und Erinnerungsmechanismus) auf die Leistung im strategischen Denken. Die Ergebnisse zeigen, dass der Chat-Mechanismus die strategische Denkfähigkeit signifikant beeinträchtigt, während der Erinnerungsmechanismus diese verbessert. Diese Erkenntnisse positionieren CHBench als vielversprechendes Werkzeug zur Bewertung der Fähigkeiten von LLMs mit erheblichem Potenzial für zukünftige Forschung und praktische Anwendungen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hongtao Liu

Zhicheng Du

Zihe Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CHBench: Ein Cognitive Hierarchy Benchmark zur Bewertung der strategischen Denkfähigkeit von LLMs

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider