Key points are not available for this paper at this time.
Zeitliches Denken ist grundlegend für große Sprachmodelle (LLMs), um die Welt zu verstehen. Aktuelle Datensätze zum zeitlichen Denken beschränken sich auf Fragen zu einzelnen oder isolierten Ereignissen und spiegeln somit nicht die realistischen zeitlichen Charakteristika wider, die zugleich auftretende Ereignisse und komplexe zeitliche Verbindungen beinhalten. In diesem Artikel stellen wir CoTempQA vor, einen umfassenden Frage-Antwort-Benchmark (QA) für zeitgleiches Denken mit vier ko-temporalen Szenarien (Gleichzeitig, Überlappen, Während, Mischung) und 4.748 Beispielen zur Bewertung der Fähigkeiten von LLMs im Verständnis und in der Argumentation zu gleichzeitig auftretenden Ereignissen. Unsere umfangreichen Experimente zeigen eine deutliche Lücke zwischen der Leistung aktueller LLMs und dem menschlichen Niveau bei CoTempQA-Aufgaben. Selbst mit Chain of Thought (CoT)-Methoden erweitert, kämpfen die Modelle konstant mit unserer Aufgabe. In unseren vorläufigen Untersuchungen fanden wir heraus, dass mathematisches Denken eine bedeutende Rolle beim Umgang mit zeitgleich auftretenden Ereignissen spielt, und schlugen eine Strategie vor, die co-temporale Argumentationsfähigkeit von LLMs aus mathematischer Perspektive zu verbessern. Wir hoffen, dass unsere CoTempQA-Datensätze weitere Fortschritte bei der Verbesserung der Fähigkeiten von LLMs im co-temporalen Denken fördern. Unser Code ist verfügbar unter https://github.com/zhaochen0110/Cotempqa.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhaochen Su
Jun‐Tao Li
Jun Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Su et al. (Do,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e64e8bb6db6435875df284 — DOI: https://doi.org/10.48550/arxiv.2406.09072