April 27, 2022

Reconocimiento de Emociones en el Habla con Información Acústica Multi-Nivel Basada en Co-Atención

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El Reconocimiento de Emociones en el Habla (SER) tiene como objetivo ayudar a la máquina a comprender la emoción subjetiva humana solo a partir de la información de audio. Sin embargo, extraer y utilizar información acústica profunda y completa sigue siendo una tarea compleja. En este artículo, proponemos un sistema de reconocimiento de emociones en el habla de extremo a extremo que utiliza información acústica multi-nivel con un módulo de co-atención recién diseñado. Primero extraemos información acústica multi-nivel, incluyendo MFCC, espectrograma e información acústica de alto nivel embebida con CNN, BiLSTM y wav2vec2, respectivamente. Luego estas características extraídas se tratan como entradas multimodales y se fusionan mediante el mecanismo de co-atención propuesto. Los experimentos se llevan a cabo con el conjunto de datos IEMOCAP, y nuestro modelo alcanza un rendimiento competitivo con dos diferentes estrategias de validación cruzada independientes del hablante. Nuestro código está disponible en GitHub.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Heqing Zou

Yuke Si

Chen Chen

Actions

Institutions

Nanyang Technological University

Tianjin University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Reconocimiento de Emociones en el Habla con Información Acústica Multi-Nivel Basada en Co-Atención

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider