March 19, 2024Open Access

LLMLingua-2: Destilação de Dados para Compressão de Prompt Agnóstica à Tarefa, Eficiente e Fiel

Key Points

Key points are not available for this paper at this time.

Abstract

Este artigo foca na compressão de prompts agnóstica à tarefa para melhor generalização e eficiência. Considerando a redundância na linguagem natural, abordagens existentes comprimem prompts removendo tokens ou unidades lexicais conforme a entropia de informação obtida de um modelo de linguagem causal como LLaMa-7B. O desafio é que a entropia de informação pode ser um métrico subótimo para compressão: (i) ela utiliza apenas contexto unidirecional e pode não capturar toda a informação essencial necessária para a compressão do prompt; (ii) não está alinhada com o objetivo de compressão do prompt. Para resolver essas questões, propomos um procedimento de destilação de dados para extrair conhecimento de um LLM para comprimir os prompts sem perder informação crucial, além de introduzir um conjunto de dados de compressão de texto extrativa. Formulamos a compressão do prompt como um problema de classificação de tokens para garantir a fidelidade do prompt comprimido ao original, utilizando um codificador Transformer como arquitetura base para capturar toda informação essencial para compressão do prompt a partir do contexto bidirecional completo. Nossa abordagem reduz a latência ao aprender explicitamente o objetivo de compressão com modelos menores como XLM-RoBERTa-large e mBERT. Avaliamos nosso método em conjuntos de dados tanto do domínio quanto fora de domínio, incluindo MeetingBank, LongBench, ZeroScrolls, GSM8K e BBH. Apesar do seu tamanho reduzido, nosso modelo apresenta ganhos significativos de desempenho sobre baselines fortes e demonstra robusta capacidade de generalização entre diferentes LLMs. Adicionalmente, nosso modelo é 3x-6x mais rápido que métodos existentes de compressão de prompt, enquanto acelera a latência ponta-a-ponta em 1.6x-2.9x com razões de compressão de 2x-5x.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhuoshi Pan

Qianhui Wu

Huiqiang Jiang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLMLingua-2: Destilação de Dados para Compressão de Prompt Agnóstica à Tarefa, Eficiente e Fiel

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider