February 26, 2024Open Access

Modelado de lenguaje de contexto largo con codificación paralela de contexto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Extender los grandes modelos de lenguaje (LLMs) para procesar entradas más largas es crucial para numerosas aplicaciones. Sin embargo, el considerable costo computacional de los transformadores, junto con la limitada generalización de la codificación posicional, restringe el tamaño de su ventana de contexto. Introducimos Context Expansion with Parallel Encoding (CEPE), un marco que puede aplicarse a cualquier LLM basado solo en decodificador para ampliar su ventana de contexto. CEPE utiliza un pequeño codificador para procesar entradas largas por fragmentos y permite que el decodificador congelado aproveche contextos adicionales mediante atención cruzada. CEPE es eficiente, generalizable y versátil: entrenado con documentos de 8K tokens, CEPE extiende la ventana de contexto de LLAMA-2 a 128K tokens, ofreciendo 10 veces el rendimiento con solo 1/6 de la memoria. CEPE proporciona un rendimiento sólido en modelado de lenguaje y aprendizaje en contexto. CEPE también sobresale en aplicaciones aumentadas con recuperación, mientras que los modelos de contexto largo existentes decaen con contextos recuperados. Además, presentamos una variante de CEPE que puede extender la ventana de contexto de modelos ajustados por instrucciones usando solo datos no etiquetados, y demostramos su efectividad en LLAMA-2-CHAT, conduciendo a un modelo fuerte para seguir instrucciones que puede aprovechar contextos muy largos en tareas posteriores.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

H. W. Yen

Tianyu Gao

Danqi Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Modelado de lenguaje de contexto largo con codificación paralela de contexto

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider