March 20, 2024Open Access

emoDARTS: 뛰어난 음성 감정 인식을 위한 CNN 및 순차 신경망 아키텍처의 공동 최적화

Key Points

Key points are not available for this paper at this time.

Abstract

음성 감정 인식(SER)은 컴퓨터가 인간 의사소통에서 전달되는 감정을 이해할 수 있게 하는 데 필수적입니다. 딥러닝(DL)의 최근 발전으로 SER 모델의 성능이 크게 향상되었습니다. 그러나 최적의 DL 아키텍처를 설계하려면 전문 지식과 실험 평가가 필요합니다. 다행히도 신경망 아키텍처 검색(NAS)은 최적의 DL 모델을 자동으로 결정할 수 있는 잠재적 해결책을 제공합니다. 미분 가능 아키텍처 검색(DARTS)은 최적 모델 발견을 위한 특히 효율적인 방법입니다. 본 연구는 SER 성능을 향상시키는 DARTS 최적화된 CNN과 순차 신경망(SeqNN: LSTM, RNN) 공동 아키텍처인 emoDARTS를 제안합니다. 문헌은 성능 향상을 위해 CNN과 LSTM 결합 선택을 지지합니다. 이전에는 DARTS가 CNN과 LSTM 연산을 독립적으로 선택하는 데 사용되었으나, 본 기법은 DARTS를 이용해 CNN과 SeqNN 연산을 함께 선택하는 새로운 메커니즘을 추가합니다. 이전 연구와 달리 CNN의 계층 순서에 제한을 두지 않고, DARTS 셀 내에서 최적의 계층 순서를 DARTS가 선택하도록 합니다. IEMOCAP, MSP-IMPROV, MSP-Podcast 데이터셋을 통해 본 기법이 전통적인 CNN-LSTM 모델보다 우수하며 DARTS 기반 CNN-LSTM 최고 성능을 능가함을 입증합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Thejan Rajapakshe

Rajib Rana

Sara Khalifa

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

emoDARTS: 뛰어난 음성 감정 인식을 위한 CNN 및 순차 신경망 아키텍처의 공동 최적화

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider