Key points are not available for this paper at this time.
Grandes modelos de linguagem (LLMs) transformaram inúmeras aplicações em IA. LLMs em dispositivos locais estão tornando-se cada vez mais importantes: executar LLMs localmente em dispositivos de borda pode reduzir custos de computação em nuvem e proteger a privacidade dos usuários. No entanto, o tamanho astronômico do modelo e os recursos limitados de hardware apresentam desafios significativos para a implantação. Para resolver essas questões, propomos a Quantização de Peso Sensível à Ativação (AWQ) e o TinyChat, uma solução completa de algoritmo e sistema para implantação eficiente de LLMs em dispositivos locais. AWQ é um método de quantização inovador que identifica e protege pesos salientes com base na distribuição de ativações, reduzindo significativamente o tamanho do modelo enquanto preserva o desempenho. TinyChat, uma estrutura de inferência otimizada, traduz as economias teóricas de memória do AWQ em acelerações práticas por meio de técnicas como desquantização dinâmica, empacotamento de pesos sensível a SIMD e fusão de kernels. Juntos, eles permitem redução de tamanho do modelo em 4x e aceleração de 3-4x em diversas plataformas de borda, desde GPUs desktop de alta performance até dispositivos IoT com recursos limitados. Esta solução democratiza a implantação de LLMs em dispositivos locais, oferecendo capacidades de IA de baixa latência e preservação da privacidade em uma ampla gama de aplicações.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji Lin
Jiaming Tang
Haotian Tang
GetMobile Mobile Computing and Communications
IIT@MIT
Building similarity graph...
Analyzing shared references across papers
Loading...
Lin et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/69f856efd4cf95b9ebf76903 — DOI: https://doi.org/10.1145/3714983.3714987
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: