June 23, 2023Open Access

Transformador Preentrenado con Recuperación: Modelado de Lenguaje de Largo Alcance con Auto-recuperación

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje (LM) aumentados con recuperación han recibido mucha atención recientemente. Sin embargo, típicamente el recuperador no se entrena conjuntamente como un componente nativo del LM, sino que se añade después a un LM ya preentrenado, lo que limita la capacidad del LM y del recuperador para adaptarse mutuamente. En este trabajo, proponemos el Transformador Preentrenado con Recuperación (RPT), una arquitectura y procedimiento de entrenamiento para entrenar conjuntamente un LM aumentado con recuperación desde cero y aplicarlo a la tarea de modelar textos largos. Dado un fragmento de texto recientemente generado en un documento extenso, el LM calcula representaciones de consulta, las cuales se utilizan para recuperar fragmentos anteriores en el documento, ubicados potencialmente a decenas de miles de tokens de distancia. La información de los fragmentos recuperados se fusiona en las representaciones del LM para predecir el siguiente fragmento objetivo. Entrenamos el componente recuperador con un objetivo semántico, donde la meta es recuperar fragmentos que aumenten la probabilidad del siguiente fragmento, según un LM de referencia. Evaluamos RPT en cuatro tareas de modelado de lenguaje de largo alcance, abarcando libros, código y escritura matemática, y demostramos que RPT mejora la calidad de la recuperación y subsecuentemente la perplexidad en todos los casos en comparación con bases sólidas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ohad Rubin

Jonathan Berant

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Transformador Preentrenado con Recuperación: Modelado de Lenguaje de Largo Alcance con Auto-recuperación

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study