Los puntos clave no están disponibles para este artículo en este momento.
Extender los grandes modelos de lenguaje (LLMs) para procesar entradas más largas es crucial para numerosas aplicaciones. Sin embargo, el considerable costo computacional de los transformadores, junto con la limitada generalización de la codificación posicional, restringe el tamaño de su ventana de contexto. Introducimos Context Expansion with Parallel Encoding (CEPE), un marco que puede aplicarse a cualquier LLM basado solo en decodificador para ampliar su ventana de contexto. CEPE utiliza un pequeño codificador para procesar entradas largas por fragmentos y permite que el decodificador congelado aproveche contextos adicionales mediante atención cruzada. CEPE es eficiente, generalizable y versátil: entrenado con documentos de 8K tokens, CEPE extiende la ventana de contexto de LLAMA-2 a 128K tokens, ofreciendo 10 veces el rendimiento con solo 1/6 de la memoria. CEPE proporciona un rendimiento sólido en modelado de lenguaje y aprendizaje en contexto. CEPE también sobresale en aplicaciones aumentadas con recuperación, mientras que los modelos de contexto largo existentes decaen con contextos recuperados. Además, presentamos una variante de CEPE que puede extender la ventana de contexto de modelos ajustados por instrucciones usando solo datos no etiquetados, y demostramos su efectividad en LLAMA-2-CHAT, conduciendo a un modelo fuerte para seguir instrucciones que puede aprovechar contextos muy largos en tareas posteriores.
Building similarity graph...
Analyzing shared references across papers
Loading...
H. W. Yen
Tianyu Gao
Danqi Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Yen et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e778e0b6db6435876ede4b — DOI: https://doi.org/10.48550/arxiv.2402.16617
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: