June 9, 2015Open Access

Muestreo Programado para la Predicción de Secuencias con Redes Neuronales Recurrentes

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las Redes Neuronales Recurrentes pueden ser entrenadas para producir secuencias de tokens dado algún input, como ejemplifican resultados recientes en traducción automática y generación de descripciones de imágenes. El enfoque actual para entrenarlas consiste en maximizar la probabilidad de cada token en la secuencia dado el estado (recurrente) actual y el token previo. En la inferencia, el token previo desconocido es reemplazado por un token generado por el propio modelo. Esta discrepancia entre entrenamiento e inferencia puede generar errores que se acumulan rápidamente a lo largo de la secuencia generada. Proponemos una estrategia de aprendizaje curricular para cambiar gradualmente el proceso de entrenamiento de un esquema completamente guiado usando el token verdadero previo, hacia un esquema menos guiado que utiliza mayormente el token generado. Experimentos en varias tareas de predicción de secuencias muestran que este enfoque produce mejoras significativas. Además, se usó con éxito en nuestra entrada ganadora del desafío MSCOCO de generación de descripciones de imágenes, 2015.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Samy Bengio

Oriol Vinyals

Navdeep Jaitly

Actions

Institutions

Google (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Muestreo Programado para la Predicción de Secuencias con Redes Neuronales Recurrentes

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study