Key points are not available for this paper at this time.
Este artigo foca na compressão de prompts agnóstica à tarefa para melhor generalização e eficiência. Considerando a redundância na linguagem natural, abordagens existentes comprimem prompts removendo tokens ou unidades lexicais conforme a entropia de informação obtida de um modelo de linguagem causal como LLaMa-7B. O desafio é que a entropia de informação pode ser um métrico subótimo para compressão: (i) ela utiliza apenas contexto unidirecional e pode não capturar toda a informação essencial necessária para a compressão do prompt; (ii) não está alinhada com o objetivo de compressão do prompt. Para resolver essas questões, propomos um procedimento de destilação de dados para extrair conhecimento de um LLM para comprimir os prompts sem perder informação crucial, além de introduzir um conjunto de dados de compressão de texto extrativa. Formulamos a compressão do prompt como um problema de classificação de tokens para garantir a fidelidade do prompt comprimido ao original, utilizando um codificador Transformer como arquitetura base para capturar toda informação essencial para compressão do prompt a partir do contexto bidirecional completo. Nossa abordagem reduz a latência ao aprender explicitamente o objetivo de compressão com modelos menores como XLM-RoBERTa-large e mBERT. Avaliamos nosso método em conjuntos de dados tanto do domínio quanto fora de domínio, incluindo MeetingBank, LongBench, ZeroScrolls, GSM8K e BBH. Apesar do seu tamanho reduzido, nosso modelo apresenta ganhos significativos de desempenho sobre baselines fortes e demonstra robusta capacidade de generalização entre diferentes LLMs. Adicionalmente, nosso modelo é 3x-6x mais rápido que métodos existentes de compressão de prompt, enquanto acelera a latência ponta-a-ponta em 1.6x-2.9x com razões de compressão de 2x-5x.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuoshi Pan
Qianhui Wu
Huiqiang Jiang
Building similarity graph...
Analyzing shared references across papers
Loading...
Pan et al. (Tue,) estudaram esta questão.
www.synapsesocial.com/papers/68e73752b6db6435876b039d — DOI: https://doi.org/10.48550/arxiv.2403.12968
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: