Los modelos de lenguaje autorregresivos (AR) generan texto un token a la vez, lo que limita su velocidad de inferencia. Los modelos de lenguaje basados en difusión ofrecen una alternativa prometedora, ya que pueden decodificar múltiples tokens en paralelo. Sin embargo, identificamos un cuello de botella clave en los modelos de difusión actuales: el problema de la ventana de decodificación larga, donde los tokens generados lejos del contexto de entrada con frecuencia se vuelven irrelevantes o repetitivos. Soluciones previas como el semi-autorregresivo abordan este problema dividiendo las ventanas en bloques, pero esto sacrifica velocidad y bidireccionalidad, eliminando la principal ventaja de los modelos de difusión. Para superarlo, proponemos la decodificación por convolución (Conv), un método basado en normalización que estrecha la ventana de decodificación sin segmentación rígida, lo que conduce a mejor fluidez y flexibilidad. Además, introducimos el Ajuste Fino Basado en Reglas de Rechazo (R2FT), un esquema de entrenamiento post-hoc que alinea mejor los tokens en posiciones alejadas del contexto. Nuestros métodos logran resultados de última generación en benchmarks de generación abierta (p. ej., AlpacaEval) entre las bases de modelos de difusión, con un tamaño de paso significativamente menor que trabajos anteriores, demostrando mejoras tanto en velocidad como en calidad.
Building similarity graph...
Analyzing shared references across papers
Loading...
Young Seok Seo
Dongha Lee
Jaehyung Kim
Building similarity graph...
Analyzing shared references across papers
Loading...
Seo et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac3630e — DOI: https://doi.org/10.48550/arxiv.2509.15188
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: