July 14, 2016Open Access

LSTM: Eine Odyssee im Suchraum

Key Points

Key points are not available for this paper at this time.

Abstract

Seit der Entstehung im Jahr 1995 wurden mehrere Varianten der Long Short-Term Memory (LSTM)-Architektur für rekurrente neuronale Netzwerke vorgeschlagen. In den letzten Jahren sind diese Netzwerke zu den modernsten Modellen für verschiedene Probleme im maschinellen Lernen geworden. Dies führte zu einem erneuten Interesse daran, die Rolle und den Nutzen verschiedener rechnerischer Komponenten typischer LSTM-Varianten zu verstehen. In diesem Papier präsentieren wir die erste groß angelegte Analyse von acht LSTM-Varianten bei drei repräsentativen Aufgaben: Spracherkennung, Handschriftenerkennung und polyphone Musikmodellierung. Die Hyperparameter aller LSTM-Varianten für jede Aufgabe wurden separat mittels Random Search optimiert, und ihre Bedeutung wurde mit dem leistungsstarken funktionalen Varianzanalyse-Framework (ANalysis Of VAriance) bewertet. Insgesamt fassen wir die Ergebnisse von 5400 experimentellen Durchläufen zusammen (≈ 15 Jahre CPU-Zeit), was unsere Studie zur größten ihrer Art bei LSTM-Netzwerken macht. Unsere Ergebnisse zeigen, dass keine der Varianten die Standard-LSTM-Architektur signifikant verbessern kann, und demonstrieren, dass das Forget-Gate und die Ausgangsaktivierungsfunktion seine kritischsten Komponenten sind. Darüber hinaus beobachten wir, dass die untersuchten Hyperparameter praktisch unabhängig sind, und leiten Richtlinien für deren effiziente Anpassung ab.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Klaus Greff

Rupesh K. Srivastava

Jan Koutník

Journals

IEEE Transactions on Neural Networks and Learning Systems

Actions

Institutions

Università della Svizzera italiana

Dalle Molle Institute for Artificial Intelligence Research

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LSTM: Eine Odyssee im Suchraum

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider