Los puntos clave no están disponibles para este artículo en este momento.
El procesamiento de contextos largos sigue siendo un desafío para los modelos de lenguaje grandes (LLMs) debido al costo computacional y de memoria cuadrático del mecanismo de autoatención y al tamaño sustancial de la caché KV durante la generación. Proponemos un enfoque novedoso para abordar este problema mediante el aprendizaje de contextos sin conexión a través de la compresión de contextos y el afinamiento eficiente en parámetros dentro del dominio. Nuestro método permite que un LLM cree una representación concisa del contexto original y recupere eficientemente información relevante para responder preguntas con precisión. Introducimos LLoCO, una técnica que combina compresión de contextos, recuperación y afinamiento eficiente en parámetros utilizando LoRA. Nuestro enfoque extiende la ventana de contexto efectiva de un modelo LLaMA2-7B de 4k tokens para manejar hasta 128k tokens. Evaluamos nuestro método en varios conjuntos de datos de preguntas y respuestas con contextos largos, demostrando que LLoCO supera significativamente el aprendizaje en contexto mientras utiliza 30 tokens menos durante la inferencia. LLoCO logra hasta 7.62 veces más velocidad y reduce sustancialmente el costo de responder preguntas en documentos largos, convirtiéndolo en una solución prometedora para el procesamiento eficiente de contextos largos. Nuestro código está disponible públicamente en https://github.com/jeffreysijuntan/lloco.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sijun Tan
Xiuyu Li
Shishir G. Patil
Building similarity graph...
Analyzing shared references across papers
Loading...
Tan et al. (jue) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6f968b6db643587673b5d — DOI: https://doi.org/10.48550/arxiv.2404.07979
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: