March 1, 2016

استمع، انتبه، وأهجِئ: شبكة عصبية للتعرف على الكلام الحواري بمفردات واسعة

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم Listen, Attend and Spell (LAS)، نظام التعرف على الكلام العصبي الذي ينسخ الكلام مباشرة إلى حروف بدون نماذج النطق، HMM أو مكونات أنظمة التعرف التقليدية الأخرى. في LAS، تشمل بنية الشبكة العصبية النماذج الصوتية، ونماذج النطق، ونماذج اللغة مما يجعله نظامًا مدربًا من البداية للنهاية ونموذجًا من البداية للنهاية. على عكس DNN-HMM، وCTC ومعظم النماذج الأخرى، لا تفترض LAS استقلالية توزيع احتمالية تسلسل الحروف الناتجة معطاة تسلسل الصوت. يتألف نظامنا من مكونين: المستمع والمتهجئ. المستمع هو مشفر شبكة تكرارية هرمي يستقبل طيف بنك المرشحات كمدخلات. المتهجئ هو مفكك ترميز شبكة تكرارية قائمة على الانتباه يصدر كل حرف مشروطًا بجميع الأحرف السابقة وبالتسلسل الصوتي الكامل. في مهمة البحث الصوتي من Google، يحقق LAS معدل خطأ في الكلمات (WER) يبلغ 14.1% بدون قاموس أو نموذج لغة خارجي و10.3% بإعادة تقييم نموذج اللغة على أفضل 32 شعاعًا. بالمقارنة، يحقق نموذج CLDNN-HMM المتطور معدل WER يبلغ 8.0% على نفس المجموعة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

William Chan

Navdeep Jaitly

Quoc V. Le

Actions

Institutions

Carnegie Mellon University

Google (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

استمع، انتبه، وأهجِئ: شبكة عصبية للتعرف على الكلام الحواري بمفردات واسعة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study