April 27, 2022

Spracherkennung von Emotionen mit ko-attentionbasierten mehrstufigen akustischen Informationen

Key Points

Key points are not available for this paper at this time.

Abstract

Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) zielt darauf ab, Maschinen dabei zu unterstützen, subjektive menschliche Emotionen ausschließlich aus Audioinformationen zu verstehen. Dennoch ist das Extrahieren und Nutzen umfassender, tiefgehender Audioinformationen nach wie vor eine herausfordernde Aufgabe. In diesem Beitrag schlagen wir ein End-to-End-System zur Spracherkennung von Emotionen vor, das mehrstufige akustische Informationen mit einem neu entwickelten Ko-Attention-Modul verwendet. Zunächst extrahieren wir mehrstufige akustische Informationen, darunter MFCC, Spektrogramme und eingebettete hochstufige akustische Informationen mit CNN, BiLSTM und wav2vec2, jeweils. Diese extrahierten Merkmale werden dann als multimodale Eingaben behandelt und durch den vorgeschlagenen Ko-Attention-Mechanismus fusioniert. Experimente werden auf dem IEMOCAP-Datensatz durchgeführt, und unser Modell erreicht wettbewerbsfähige Leistungen mit zwei verschiedenen sprecherunabhängigen Kreuzvalidierungsstrategien. Unser Code ist auf GitHub verfügbar.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Heqing Zou

Yuke Si

Chen Chen

Actions

Institutions

Nanyang Technological University

Tianjin University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Spracherkennung von Emotionen mit ko-attentionbasierten mehrstufigen akustischen Informationen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider