Key points are not available for this paper at this time.
Die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) zielt darauf ab, Maschinen dabei zu unterstützen, subjektive menschliche Emotionen ausschließlich aus Audioinformationen zu verstehen. Dennoch ist das Extrahieren und Nutzen umfassender, tiefgehender Audioinformationen nach wie vor eine herausfordernde Aufgabe. In diesem Beitrag schlagen wir ein End-to-End-System zur Spracherkennung von Emotionen vor, das mehrstufige akustische Informationen mit einem neu entwickelten Ko-Attention-Modul verwendet. Zunächst extrahieren wir mehrstufige akustische Informationen, darunter MFCC, Spektrogramme und eingebettete hochstufige akustische Informationen mit CNN, BiLSTM und wav2vec2, jeweils. Diese extrahierten Merkmale werden dann als multimodale Eingaben behandelt und durch den vorgeschlagenen Ko-Attention-Mechanismus fusioniert. Experimente werden auf dem IEMOCAP-Datensatz durchgeführt, und unser Modell erreicht wettbewerbsfähige Leistungen mit zwei verschiedenen sprecherunabhängigen Kreuzvalidierungsstrategien. Unser Code ist auf GitHub verfügbar.
Building similarity graph...
Analyzing shared references across papers
Loading...
Heqing Zou
Yuke Si
Chen Chen
Nanyang Technological University
Tianjin University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zou et al. (Mi,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/6a08f16aafc616802fe4bca3 — DOI: https://doi.org/10.1109/icassp43922.2022.9747095
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: