Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje (LM) aumentados con recuperación han recibido mucha atención recientemente. Sin embargo, típicamente el recuperador no se entrena conjuntamente como un componente nativo del LM, sino que se añade después a un LM ya preentrenado, lo que limita la capacidad del LM y del recuperador para adaptarse mutuamente. En este trabajo, proponemos el Transformador Preentrenado con Recuperación (RPT), una arquitectura y procedimiento de entrenamiento para entrenar conjuntamente un LM aumentado con recuperación desde cero y aplicarlo a la tarea de modelar textos largos. Dado un fragmento de texto recientemente generado en un documento extenso, el LM calcula representaciones de consulta, las cuales se utilizan para recuperar fragmentos anteriores en el documento, ubicados potencialmente a decenas de miles de tokens de distancia. La información de los fragmentos recuperados se fusiona en las representaciones del LM para predecir el siguiente fragmento objetivo. Entrenamos el componente recuperador con un objetivo semántico, donde la meta es recuperar fragmentos que aumenten la probabilidad del siguiente fragmento, según un LM de referencia. Evaluamos RPT en cuatro tareas de modelado de lenguaje de largo alcance, abarcando libros, código y escritura matemática, y demostramos que RPT mejora la calidad de la recuperación y subsecuentemente la perplexidad en todos los casos en comparación con bases sólidas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ohad Rubin
Jonathan Berant
Building similarity graph...
Analyzing shared references across papers
Loading...
Rubin et al. (Fri,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a08b5e4ad370a6b44de4980 — DOI: https://doi.org/10.48550/arxiv.2306.13421