Key points are not available for this paper at this time.
Les Grands Modèles de Langage (LLMs) ont attiré une attention considérable en raison de leurs performances remarquables dans diverses tâches. Cependant, pour atténuer le problème des hallucinations, les LLMs intègrent souvent une chaîne augmentée par récupération afin de leur fournir des connaissances et un contexte externes riches. Néanmoins, des défis proviennent du contexte récupéré inexact et grossier par le récupérateur. Fournir un contexte non pertinent aux LLMs peut entraîner des réponses de moindre qualité, une latence d'inférence accrue et des coûts plus élevés. Cet article présente une méthode appelée Compression Contextuelle Sensible aux Instructions, qui filtre le contenu moins informatif, accélérant ainsi et améliorant l'utilisation des LLMs. Les résultats expérimentaux montrent que cette méthode réduit notablement la consommation de mémoire et minimise la latence de génération tout en maintenant des niveaux de performance comparables à ceux obtenus avec l'usage du contexte complet. Plus précisément, nous avons atteint une réduction de 50 % des coûts liés au contexte, aboutissant à une diminution de 5 % de l'utilisation mémoire en inférence et une augmentation par 2,2 de la vitesse d'inférence, avec une baisse mineure de 0,047 en Rouge-1. Ces résultats suggèrent que notre méthode trouve un équilibre efficace entre efficacité et performance.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haowen Hou
Fei Ma
Binwen Bai
Building similarity graph...
Analyzing shared references across papers
Loading...
Hou et al. (Tue,) ont étudié cette question.
www.synapsesocial.com/papers/68e5adbeb6db643587547177 — DOI: https://doi.org/10.48550/arxiv.2408.15491
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: