Les grands modèles de langage (LLMs) ont été appliqués dans diverses applications en raison de leurs capacités étonnantes. Avec les avancées dans des technologies telles que le chain-of-thought (CoT) prompting et l'apprentissage en contexte (ICL), les prompts fournis aux LLMs deviennent de plus en plus longs, dépassant même plusieurs dizaines de milliers de tokens. Pour accélérer l'inférence du modèle et réduire les coûts, cet article présente LLMLingua, une méthode de compression de prompt de type grossier à fin qui comprend un contrôleur de budget pour maintenir l'intégrité sémantique sous des taux de compression élevés, un algorithme de compression itérative au niveau des tokens pour mieux modéliser l'interdépendance entre les contenus compressés, et une méthode basée sur l'instruction tuning pour aligner la distribution entre les modèles de langage. Nous réalisons des expériences et analyses sur quatre ensembles de données provenant de scénarios différents, à savoir GSM8K, BBH, ShareGPT et Arxiv-March23 ; montrant que l'approche proposée offre des performances à la pointe de la technologie et permet une compression allant jusqu'à 20 fois avec une perte de performance minime.
Building similarity graph...
Analyzing shared references across papers
Loading...
Huiqiang Jiang
Qianhui Wu
Chin-Yew Lin
Microsoft (Finland)
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiang et al. (Sun,) ont étudié cette question.
www.synapsesocial.com/papers/69b03ca9ea55391a031e5ed4 — DOI: https://doi.org/10.18653/v1/2023.emnlp-main.825
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: