Bien que le Chain-of-Thought (CoT) prompting améliore le raisonnement dans les grands modèles de langage (LLM), la longueur excessive des tokens de raisonnement augmente la latence et l'utilisation de la mémoire cache KV, et peut même tronquer les réponses finales sous les limites de contexte. Nous proposons ThinkLess, un cadre efficace en inférence qui termine précocement la génération du raisonnement tout en maintenant la qualité de sortie sans modifier le modèle. L'analyse de l'attention révèle que les tokens de réponse se concentrent peu sur les premières étapes du raisonnement et s'attachent principalement au token terminator de raisonnement, en raison de la migration d'information sous masquage causal. S'appuyant sur cette observation, ThinkLess insère le token terminator à des positions plus précoces pour éviter le raisonnement redondant tout en préservant le transfert de connaissances sous-jacent. Pour prévenir la perturbation du format causée par l'arrêt précoce, ThinkLess utilise un mécanisme léger de post-régulation, s'appuyant sur la capacité naturelle du modèle à suivre les instructions pour produire des réponses bien structurées. Sans ajustement fin ni données auxiliaires, ThinkLess atteint une précision comparable au décodage CoT en pleine longueur tout en réduisant considérablement le temps de décodage et la consommation mémoire.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gengyang Li
Yuhong Gao
Yuming Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Wed,) ont étudié cette question.
www.synapsesocial.com/papers/68f5c338e2d8b12842645bc0 — DOI: https://doi.org/10.48550/arxiv.2505.15684
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: