January 20, 2025

AWQ: Quantização de Peso Sensível à Ativação para Compressão e Aceleração de LLMs em Dispositivos

Key Points

Key points are not available for this paper at this time.

Abstract

Grandes modelos de linguagem (LLMs) transformaram inúmeras aplicações em IA. LLMs em dispositivos locais estão tornando-se cada vez mais importantes: executar LLMs localmente em dispositivos de borda pode reduzir custos de computação em nuvem e proteger a privacidade dos usuários. No entanto, o tamanho astronômico do modelo e os recursos limitados de hardware apresentam desafios significativos para a implantação. Para resolver essas questões, propomos a Quantização de Peso Sensível à Ativação (AWQ) e o TinyChat, uma solução completa de algoritmo e sistema para implantação eficiente de LLMs em dispositivos locais. AWQ é um método de quantização inovador que identifica e protege pesos salientes com base na distribuição de ativações, reduzindo significativamente o tamanho do modelo enquanto preserva o desempenho. TinyChat, uma estrutura de inferência otimizada, traduz as economias teóricas de memória do AWQ em acelerações práticas por meio de técnicas como desquantização dinâmica, empacotamento de pesos sensível a SIMD e fusão de kernels. Juntos, eles permitem redução de tamanho do modelo em 4x e aceleração de 3-4x em diversas plataformas de borda, desde GPUs desktop de alta performance até dispositivos IoT com recursos limitados. Esta solução democratiza a implantação de LLMs em dispositivos locais, oferecendo capacidades de IA de baixa latência e preservação da privacidade em uma ampla gama de aplicações.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ji Lin

Jiaming Tang

Haotian Tang

Journals

GetMobile Mobile Computing and Communications

Actions

Institutions

IIT@MIT

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AWQ: Quantização de Peso Sensível à Ativação para Compressão e Aceleração de LLMs em Dispositivos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider