Key points are not available for this paper at this time.
Modelos de linguagem grandes (LLMs) melhoram significativamente o desempenho de várias aplicações, mas são computacionalmente intensivos e demandam muita energia. Isso torna desafiador implantá-los em dispositivos com recursos limitados, como computadores pessoais e dispositivos móveis/usáveis, e resulta em custos substanciais de inferência em ambientes com muitos recursos, como servidores em nuvem. Para ampliar o uso dos LLMs, introduzimos uma abordagem de decomposição de baixa posto para comprimir efetivamente esses modelos, adaptada aos requisitos de aplicações específicas. Observamos que LLMs pré-treinados em conjuntos de dados gerais contêm muitos componentes redundantes não necessários para aplicações particulares. Nosso método foca em identificar e remover essas partes redundantes, mantendo apenas os elementos necessários para as aplicações alvo. Especificamente, representamos as matrizes de pesos dos LLMs como uma combinação linear de componentes base. Em seguida, podaremos as bases irrelevantes e melhoramos o modelo com novas bases benéficas para aplicações específicas. Resultados de compressão profunda nos modelos Llama 2-7b e -13B, realizados em aplicações alvo incluindo raciocínio matemático e geração de código, mostram que nosso método reduz significativamente o tamanho do modelo enquanto mantém precisão comparável às técnicas de compressão de baixa posto estado-da-arte.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Li
Changsheng Zhao
Hyungtak Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Sex,) estudaram essa questão.
www.synapsesocial.com/papers/68e68aacb6db6435876123db — DOI: https://doi.org/10.48550/arxiv.2405.15877
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: