Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im logischen Denken gezeigt, bleiben jedoch insbesondere bei Aufgaben zum zeitlichen Schlussfolgern mit komplexer temporaler Logik fehleranfällig. Bisherige Forschung hat die Leistung von LLMs beim zeitlichen Schlussfolgern anhand verschiedener Datensätze und Benchmarks untersucht. Diese Studien basieren jedoch oft auf realen Daten, die LLMs möglicherweise schon im Pre-Training begegnet sind, oder verwenden Anonymisierungstechniken, die unbeabsichtigt faktische Inkonsistenzen einführen können. In dieser Arbeit adressieren wir diese Einschränkungen durch die Einführung neuartiger synthetischer Datensätze, die speziell entwickelt wurden, um die Fähigkeiten von LLMs im zeitlichen Schlussfolgern in verschiedenen Szenarien zu bewerten. Die Vielfalt der Fragestellungen in diesen Datensätzen ermöglicht eine systematische Untersuchung des Einflusses von Problemstruktur, Größe, Fragetyp, Faktenreihenfolge und weiteren Faktoren auf die Leistung der LLMs. Unsere Ergebnisse liefern wertvolle Einblicke in die Stärken und Schwächen aktueller LLMs bei Aufgaben zum zeitlichen Schlussfolgern. Um die weitere Forschung in diesem Bereich zu fördern, stellen wir die in unseren Experimenten verwendeten Datensätze und das Evaluationsframework als Open Source bereit: https://huggingface.co/datasets/baharef/ToT.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bahare Fatemi
Mehran Kazemi
Anton Tsitsulin
Building similarity graph...
Analyzing shared references across papers
Loading...
Fatemi et al. (Thu,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e64f88b6db6435875e0111 — DOI: https://doi.org/10.48550/arxiv.2406.09170
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: