Este artigo apresenta uma demonstração do mLoRA, um sistema para ajuste fino paralelo e eficiente de Grandes Modelos de Linguagem (LLMs) usando Adaptação de Baixa Ordem (LoRA). O mLoRA introduz dois componentes principais: LoRAPP, um mecanismo de paralelismo em pipeline sem latência que aproveita a independência dos adaptadores LoRA para maximizar a utilização da GPU em várias GPUs, e BatchLoRA, um operador personalizado que consolida múltiplas tarefas LoRA em operações matriciais em lote para reduzir a sobrecarga do lançamento do kernel. O sistema também inclui um escalonador de tarefas consciente da memória para alocação eficiente de recursos. Demonstrado em tarefas relacionadas a banco de dados, incluindo Text2SQL e pré-processamento de dados baseado em LLM (LLM4DP), o mLoRA alcança um treinamento 30–45% mais rápido em comparação com métodos paralelos existentes e foi implantado em produção na AntGroup. Este artigo de demonstração foi submetido à Trilha de Demonstração do PVLDB 2025 e serve como complemento ao artigo de pesquisa completo aceito no VLDB 2025.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zelong Huang
Zhengmao Ye
Salma Filali
Cornell University
Sichuan University
The University of Texas at Arlington
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang et al. (Sun,) estudaram essa questão.
www.synapsesocial.com/papers/69a67f12f353c071a6f0ae55 — DOI: https://doi.org/10.5281/zenodo.18827405
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: