What question did this study set out to answer?

L'objectif est d'améliorer l'efficacité des grands modèles de langage en compressant les prompts sans perdre leur sens.

January 1, 2023Open Access

LLMLingua : Compression des prompts pour une inférence accélérée des grands modèles de langage

Key Points

L'objectif est d'améliorer l'efficacité des grands modèles de langage en compressant les prompts sans perdre leur sens.
Développement d'une méthode de compression de prompt du grossier au fin avec un contrôleur de budget pour l'intégrité sémantique.
Utilisation d'un algorithme de compression itérative au niveau des tokens pour modéliser l'interdépendance dans le contenu compressé.
Mise en œuvre d'une méthode d'instruction tuning pour un meilleur alignement entre les modèles de langage.
Réalisation d'expériences sur quatre ensembles de données divers : GSM8K, BBH, ShareGPT et Arxiv-March23.
Obtention de performances à la pointe de la technologie sur tous les ensembles de données testés.
Démonstration d'une compression des prompts jusqu'à 20 fois avec une perte de performance minimale.

Abstract

Les grands modèles de langage (LLMs) ont été appliqués dans diverses applications en raison de leurs capacités étonnantes. Avec les avancées dans des technologies telles que le chain-of-thought (CoT) prompting et l'apprentissage en contexte (ICL), les prompts fournis aux LLMs deviennent de plus en plus longs, dépassant même plusieurs dizaines de milliers de tokens. Pour accélérer l'inférence du modèle et réduire les coûts, cet article présente LLMLingua, une méthode de compression de prompt de type grossier à fin qui comprend un contrôleur de budget pour maintenir l'intégrité sémantique sous des taux de compression élevés, un algorithme de compression itérative au niveau des tokens pour mieux modéliser l'interdépendance entre les contenus compressés, et une méthode basée sur l'instruction tuning pour aligner la distribution entre les modèles de langage. Nous réalisons des expériences et analyses sur quatre ensembles de données provenant de scénarios différents, à savoir GSM8K, BBH, ShareGPT et Arxiv-March23 ; montrant que l'approche proposée offre des performances à la pointe de la technologie et permet une compression allant jusqu'à 20 fois avec une perte de performance minime.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Huiqiang Jiang

Qianhui Wu

Chin-Yew Lin

Actions

Institutions

Microsoft (Finland)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLMLingua : Compression des prompts pour une inférence accélérée des grands modèles de langage

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider