August 27, 2024Open Access

Amélioration et Accélération des Grands Modèles de Langage via la Compression Contextuelle Sensible aux Instructions

Key Points

Key points are not available for this paper at this time.

Abstract

Les Grands Modèles de Langage (LLMs) ont attiré une attention considérable en raison de leurs performances remarquables dans diverses tâches. Cependant, pour atténuer le problème des hallucinations, les LLMs intègrent souvent une chaîne augmentée par récupération afin de leur fournir des connaissances et un contexte externes riches. Néanmoins, des défis proviennent du contexte récupéré inexact et grossier par le récupérateur. Fournir un contexte non pertinent aux LLMs peut entraîner des réponses de moindre qualité, une latence d'inférence accrue et des coûts plus élevés. Cet article présente une méthode appelée Compression Contextuelle Sensible aux Instructions, qui filtre le contenu moins informatif, accélérant ainsi et améliorant l'utilisation des LLMs. Les résultats expérimentaux montrent que cette méthode réduit notablement la consommation de mémoire et minimise la latence de génération tout en maintenant des niveaux de performance comparables à ceux obtenus avec l'usage du contexte complet. Plus précisément, nous avons atteint une réduction de 50 % des coûts liés au contexte, aboutissant à une diminution de 5 % de l'utilisation mémoire en inférence et une augmentation par 2,2 de la vitesse d'inférence, avec une baisse mineure de 0,047 en Rouge-1. Ces résultats suggèrent que notre méthode trouve un équilibre efficace entre efficacité et performance.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haowen Hou

Fei Ma

Binwen Bai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Amélioration et Accélération des Grands Modèles de Langage via la Compression Contextuelle Sensible aux Instructions

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider