Key points are not available for this paper at this time.
Wir stellen Listen, Attend and Spell (LAS) vor, einen neuronalen Spracherkenner, der Sprachäußerungen direkt in Zeichen transkribiert, ohne Aussprachemodelle, HMMs oder andere Komponenten traditioneller Spracherkenner. Bei LAS umfasst die neuronale Netzwerkarchitektur die akustischen, Aussprache- und Sprachmodelle, wodurch es sich nicht nur um ein end-to-end trainiertes System, sondern ein end-to-end Modell handelt. Im Gegensatz zu DNN-HMM, CTC und den meisten anderen Modellen trifft LAS keinerlei Annahmen über die Unabhängigkeit der Wahrscheinlichkeitsverteilung der Ausgabesequenzen der Zeichen gegeben der akustischen Sequenz. Unser System besteht aus zwei Komponenten: einem Zuhörer und einem Buchstabierer. Der Zuhörer ist ein pyramidales rekurrentes Netzwerke-Encoder, der Filterbandspektren als Eingaben akzeptiert. Der Buchstabierer ist ein aufmerksamkeitsbasiertes rekurrentes Netzwerk-Decoder, der jedes Zeichen unter der Bedingung aller vorherigen Zeichen und der gesamten akustischen Sequenz ausgibt. Bei einer Google Sprachsuche erzielt LAS eine WER von 14,1 % ohne Wörterbuch oder externes Sprachmodell und 10,3 % bei Rescoring der Top 32 Strahlen mit Sprachmodell. Im Vergleich erreicht das hochmoderne CLDNN-HMM Modell eine WER von 8,0 % auf demselben Datensatz.
Building similarity graph...
Analyzing shared references across papers
Loading...
William Chan
Navdeep Jaitly
Quoc V. Le
Carnegie Mellon University
Google (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Chan et al. (Tue,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69da08450d540cafc583823f — DOI: https://doi.org/10.1109/icassp.2016.7472621
Synapse has enriched one closely related paper. Consider it for comparative context: