Key points are not available for this paper at this time.
Seit der Entstehung im Jahr 1995 wurden mehrere Varianten der Long Short-Term Memory (LSTM)-Architektur für rekurrente neuronale Netzwerke vorgeschlagen. In den letzten Jahren sind diese Netzwerke zu den modernsten Modellen für verschiedene Probleme im maschinellen Lernen geworden. Dies führte zu einem erneuten Interesse daran, die Rolle und den Nutzen verschiedener rechnerischer Komponenten typischer LSTM-Varianten zu verstehen. In diesem Papier präsentieren wir die erste groß angelegte Analyse von acht LSTM-Varianten bei drei repräsentativen Aufgaben: Spracherkennung, Handschriftenerkennung und polyphone Musikmodellierung. Die Hyperparameter aller LSTM-Varianten für jede Aufgabe wurden separat mittels Random Search optimiert, und ihre Bedeutung wurde mit dem leistungsstarken funktionalen Varianzanalyse-Framework (ANalysis Of VAriance) bewertet. Insgesamt fassen wir die Ergebnisse von 5400 experimentellen Durchläufen zusammen (≈ 15 Jahre CPU-Zeit), was unsere Studie zur größten ihrer Art bei LSTM-Netzwerken macht. Unsere Ergebnisse zeigen, dass keine der Varianten die Standard-LSTM-Architektur signifikant verbessern kann, und demonstrieren, dass das Forget-Gate und die Ausgangsaktivierungsfunktion seine kritischsten Komponenten sind. Darüber hinaus beobachten wir, dass die untersuchten Hyperparameter praktisch unabhängig sind, und leiten Richtlinien für deren effiziente Anpassung ab.
Building similarity graph...
Analyzing shared references across papers
Loading...
Klaus Greff
Rupesh K. Srivastava
Jan Koutník
IEEE Transactions on Neural Networks and Learning Systems
Università della Svizzera italiana
Dalle Molle Institute for Artificial Intelligence Research
Building similarity graph...
Analyzing shared references across papers
Loading...
Greff et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69d6bd2041375cf86eed89ef — DOI: https://doi.org/10.1109/tnnls.2016.2582924
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: