What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

ThinkLess : une méthode efficace en inférence sans entraînement pour réduire la redondance du raisonnement

Key Points

ThinkLess atteint une précision comparable au décodage CoT en pleine longueur, tout en réduisant significativement le temps de décodage.
L'analyse montre que les tokens de raisonnement se concentrent principalement sur le token terminator, indiquant une redondance dans les étapes précédentes.
Cette méthode ne nécessite pas d'ajustement fin du modèle ni de données auxiliaires, renforçant ainsi sa praticité pour le déploiement.
En insérant le token terminator plus tôt, ThinkLess minimise efficacement la redondance du raisonnement sans perturber le format.

Abstract

Bien que le Chain-of-Thought (CoT) prompting améliore le raisonnement dans les grands modèles de langage (LLM), la longueur excessive des tokens de raisonnement augmente la latence et l'utilisation de la mémoire cache KV, et peut même tronquer les réponses finales sous les limites de contexte. Nous proposons ThinkLess, un cadre efficace en inférence qui termine précocement la génération du raisonnement tout en maintenant la qualité de sortie sans modifier le modèle. L'analyse de l'attention révèle que les tokens de réponse se concentrent peu sur les premières étapes du raisonnement et s'attachent principalement au token terminator de raisonnement, en raison de la migration d'information sous masquage causal. S'appuyant sur cette observation, ThinkLess insère le token terminator à des positions plus précoces pour éviter le raisonnement redondant tout en préservant le transfert de connaissances sous-jacent. Pour prévenir la perturbation du format causée par l'arrêt précoce, ThinkLess utilise un mécanisme léger de post-régulation, s'appuyant sur la capacité naturelle du modèle à suivre les instructions pour produire des réponses bien structurées. Sans ajustement fin ni données auxiliaires, ThinkLess atteint une précision comparable au décodage CoT en pleine longueur tout en réduisant considérablement le temps de décodage et la consommation mémoire.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Gengyang Li

Yuhong Gao

Yuming Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ThinkLess : une méthode efficace en inférence sans entraînement pour réduire la redondance du raisonnement

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider