Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement impressionnantes grâce à des techniques de calcul au moment du test (TTC) telles que le chain-of-thought prompting et le raisonnement en arbre. Cependant, nous soutenons que les LLMs actuels de raisonnement (RLLMs) manquent de la capacité à explorer systématiquement l'espace des solutions. Cet article formalise ce qui constitue une résolution systématique de problèmes et identifie des modes d'échec courants qui révèlent que les LLMs de raisonnement sont des errants plutôt que des explorateurs systématiques. Par une analyse qualitative et quantitative à travers plusieurs LLMs à la pointe de la technologie, nous découvrons des problèmes persistants : étapes de raisonnement invalides, explorations redondantes, conclusions hallucinéennes ou non fidèles, etc. Nos conclusions suggèrent que la performance des modèles actuels peut sembler compétente sur des tâches simples mais décliner fortement à mesure que la complexité augmente. Sur la base de ces résultats, nous plaidons en faveur de nouveaux indicateurs et outils qui évaluent non seulement les résultats finaux mais aussi la structure même du processus de raisonnement.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiahao Lu
Ziwei Xu
Mohan Kankanhalli
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68dc12cc8a7d58c25ebb0b58 — DOI: https://doi.org/10.48550/arxiv.2505.20296
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: