Key points are not available for this paper at this time.
نقدم Listen, Attend and Spell (LAS)، نظام التعرف على الكلام العصبي الذي ينسخ الكلام مباشرة إلى حروف بدون نماذج النطق، HMM أو مكونات أنظمة التعرف التقليدية الأخرى. في LAS، تشمل بنية الشبكة العصبية النماذج الصوتية، ونماذج النطق، ونماذج اللغة مما يجعله نظامًا مدربًا من البداية للنهاية ونموذجًا من البداية للنهاية. على عكس DNN-HMM، وCTC ومعظم النماذج الأخرى، لا تفترض LAS استقلالية توزيع احتمالية تسلسل الحروف الناتجة معطاة تسلسل الصوت. يتألف نظامنا من مكونين: المستمع والمتهجئ. المستمع هو مشفر شبكة تكرارية هرمي يستقبل طيف بنك المرشحات كمدخلات. المتهجئ هو مفكك ترميز شبكة تكرارية قائمة على الانتباه يصدر كل حرف مشروطًا بجميع الأحرف السابقة وبالتسلسل الصوتي الكامل. في مهمة البحث الصوتي من Google، يحقق LAS معدل خطأ في الكلمات (WER) يبلغ 14.1% بدون قاموس أو نموذج لغة خارجي و10.3% بإعادة تقييم نموذج اللغة على أفضل 32 شعاعًا. بالمقارنة، يحقق نموذج CLDNN-HMM المتطور معدل WER يبلغ 8.0% على نفس المجموعة.
Building similarity graph...
Analyzing shared references across papers
Loading...
William Chan
Navdeep Jaitly
Quoc V. Le
Carnegie Mellon University
Google (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
درس تشان وآخرون (الثلاثاء) هذا السؤال.
www.synapsesocial.com/papers/69da08450d540cafc583823f — DOI: https://doi.org/10.1109/icassp.2016.7472621