Los puntos clave no están disponibles para este artículo en este momento.
Las Redes Neuronales Recurrentes pueden ser entrenadas para producir secuencias de tokens dado algún input, como ejemplifican resultados recientes en traducción automática y generación de descripciones de imágenes. El enfoque actual para entrenarlas consiste en maximizar la probabilidad de cada token en la secuencia dado el estado (recurrente) actual y el token previo. En la inferencia, el token previo desconocido es reemplazado por un token generado por el propio modelo. Esta discrepancia entre entrenamiento e inferencia puede generar errores que se acumulan rápidamente a lo largo de la secuencia generada. Proponemos una estrategia de aprendizaje curricular para cambiar gradualmente el proceso de entrenamiento de un esquema completamente guiado usando el token verdadero previo, hacia un esquema menos guiado que utiliza mayormente el token generado. Experimentos en varias tareas de predicción de secuencias muestran que este enfoque produce mejoras significativas. Además, se usó con éxito en nuestra entrada ganadora del desafío MSCOCO de generación de descripciones de imágenes, 2015.
Building similarity graph...
Analyzing shared references across papers
Loading...
Samy Bengio
Oriol Vinyals
Navdeep Jaitly
Google (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Bengio et al. (martes,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69d99f2c2a25b240b7a3d225 — DOI: https://doi.org/10.48550/arxiv.1506.03099