June 13, 2024Open Access

Test der Zeit: Ein Benchmark zur Bewertung von LLMs beim zeitlichen Schlussfolgern

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im logischen Denken gezeigt, bleiben jedoch insbesondere bei Aufgaben zum zeitlichen Schlussfolgern mit komplexer temporaler Logik fehleranfällig. Bisherige Forschung hat die Leistung von LLMs beim zeitlichen Schlussfolgern anhand verschiedener Datensätze und Benchmarks untersucht. Diese Studien basieren jedoch oft auf realen Daten, die LLMs möglicherweise schon im Pre-Training begegnet sind, oder verwenden Anonymisierungstechniken, die unbeabsichtigt faktische Inkonsistenzen einführen können. In dieser Arbeit adressieren wir diese Einschränkungen durch die Einführung neuartiger synthetischer Datensätze, die speziell entwickelt wurden, um die Fähigkeiten von LLMs im zeitlichen Schlussfolgern in verschiedenen Szenarien zu bewerten. Die Vielfalt der Fragestellungen in diesen Datensätzen ermöglicht eine systematische Untersuchung des Einflusses von Problemstruktur, Größe, Fragetyp, Faktenreihenfolge und weiteren Faktoren auf die Leistung der LLMs. Unsere Ergebnisse liefern wertvolle Einblicke in die Stärken und Schwächen aktueller LLMs bei Aufgaben zum zeitlichen Schlussfolgern. Um die weitere Forschung in diesem Bereich zu fördern, stellen wir die in unseren Experimenten verwendeten Datensätze und das Evaluationsframework als Open Source bereit: https://huggingface.co/datasets/baharef/ToT.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bahare Fatemi

Mehran Kazemi

Anton Tsitsulin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Test der Zeit: Ein Benchmark zur Bewertung von LLMs beim zeitlichen Schlussfolgern

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider