March 1, 2016

Hören, Aufmerksamsein und Buchstabieren: Ein neuronales Netzwerk für die Erkennung gesprächsorientierter Sprache mit großem Vokabular

Key Points

Key points are not available for this paper at this time.

Abstract

Wir stellen Listen, Attend and Spell (LAS) vor, einen neuronalen Spracherkenner, der Sprachäußerungen direkt in Zeichen transkribiert, ohne Aussprachemodelle, HMMs oder andere Komponenten traditioneller Spracherkenner. Bei LAS umfasst die neuronale Netzwerkarchitektur die akustischen, Aussprache- und Sprachmodelle, wodurch es sich nicht nur um ein end-to-end trainiertes System, sondern ein end-to-end Modell handelt. Im Gegensatz zu DNN-HMM, CTC und den meisten anderen Modellen trifft LAS keinerlei Annahmen über die Unabhängigkeit der Wahrscheinlichkeitsverteilung der Ausgabesequenzen der Zeichen gegeben der akustischen Sequenz. Unser System besteht aus zwei Komponenten: einem Zuhörer und einem Buchstabierer. Der Zuhörer ist ein pyramidales rekurrentes Netzwerke-Encoder, der Filterbandspektren als Eingaben akzeptiert. Der Buchstabierer ist ein aufmerksamkeitsbasiertes rekurrentes Netzwerk-Decoder, der jedes Zeichen unter der Bedingung aller vorherigen Zeichen und der gesamten akustischen Sequenz ausgibt. Bei einer Google Sprachsuche erzielt LAS eine WER von 14,1 % ohne Wörterbuch oder externes Sprachmodell und 10,3 % bei Rescoring der Top 32 Strahlen mit Sprachmodell. Im Vergleich erreicht das hochmoderne CLDNN-HMM Modell eine WER von 8,0 % auf demselben Datensatz.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

William Chan

Navdeep Jaitly

Quoc V. Le

Actions

Institutions

Carnegie Mellon University

Google (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Chan et al. (Tue,) untersuchten diese Fragestellung.

www.synapsesocial.com/papers/69da08450d540cafc583823f — DOI: https://doi.org/10.1109/icassp.2016.7472621

Also consider

Synapse has enriched one closely related paper. Consider it for comparative context:

Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups· 2012 · 10,274 citations

Hören, Aufmerksamsein und Buchstabieren: Ein neuronales Netzwerk für die Erkennung gesprächsorientierter Sprache mit großem Vokabular

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider