Los puntos clave no están disponibles para este artículo en este momento.
El Reconocimiento de Emociones en el Habla (SER) tiene como objetivo ayudar a la máquina a comprender la emoción subjetiva humana solo a partir de la información de audio. Sin embargo, extraer y utilizar información acústica profunda y completa sigue siendo una tarea compleja. En este artículo, proponemos un sistema de reconocimiento de emociones en el habla de extremo a extremo que utiliza información acústica multi-nivel con un módulo de co-atención recién diseñado. Primero extraemos información acústica multi-nivel, incluyendo MFCC, espectrograma e información acústica de alto nivel embebida con CNN, BiLSTM y wav2vec2, respectivamente. Luego estas características extraídas se tratan como entradas multimodales y se fusionan mediante el mecanismo de co-atención propuesto. Los experimentos se llevan a cabo con el conjunto de datos IEMOCAP, y nuestro modelo alcanza un rendimiento competitivo con dos diferentes estrategias de validación cruzada independientes del hablante. Nuestro código está disponible en GitHub.
Building similarity graph...
Analyzing shared references across papers
Loading...
Heqing Zou
Yuke Si
Chen Chen
Nanyang Technological University
Tianjin University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zou et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a08f16aafc616802fe4bca3 — DOI: https://doi.org/10.1109/icassp43922.2022.9747095
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: