Key points are not available for this paper at this time.
音声感情認識は、音声の長期パターンを分析することで全体的なメッセージを理解するのに優れたトランスフォーマーモデルの急増を目の当たりにしています。しかし、これらのモデルは計算コストがかかります。それに対して、畳み込みニューラルネットワークは高速ですが、これらの長距離関係をキャッチするのが難しいです。私たちが提案するシステム、MemoCMTは、「クロスモーダルトランスフォーマー」(CMT)を使用してこの課題に取り組みます。このCMTは、ローカルおよびグローバルな音声特徴とそれに対応するテキストを効果的に分析できます。効率を向上させるために、MemoCMTは最新のプレトレーニングモデルを活用しています:HuBERTは音声から意味のある特徴を抽出し、BERTはテキストを分析します。コアの革新は、CMTコンポーネントがこれらの音声特徴とテキスト特徴をどのように利用し統合するかです。この統合の後、最終的な感情分類の前にさまざまな融合技術が適用されます。実験により、MemoCMTは印象的なパフォーマンスを達成し、CMTは最小集約を使用して、IEMOCAPおよびESDコーパスのベンチマークでそれぞれ81.33%および91.93%の非加重精度(UW-Acc)、81.85%および91.84%の加重精度(W-Acc)を達成しました。私たちのシステムの結果は、実世界の産業応用に対する一般化能力と堅牢性を示しています。さらに、MemoCMTの実装詳細は再現性の目的でhttps://github.com/tpnam0901/MemoCMT/で公開されています。
Khanら(Fri)はこの問題を研究しました。