What question did this study set out to answer?

L'étude vise à améliorer l'apprentissage multimodal en abordant les déséquilibres dans la rétention d'informations durant la fusion des modalités.

April 10, 2026

Apprentissage multimodal équilibré en information profonde

Key Points

L'étude vise à améliorer l'apprentissage multimodal en abordant les déséquilibres dans la rétention d'informations durant la fusion des modalités.
Introduction de la théorie d'Équilibre d'Information Multimodale (EIM) fondée sur la théorie de l'information.
Développement du cadre d'Apprentissage Multimodal Équilibré en Information (AMEI) avec le module d'Optimisation d'Information d'Équilibre (OIE).
Création d'un module de Modulation de Complexité de Tâche (MCT) pour ajuster la complexité des tâches entre les modalités.
Expérimentations menées sur huit ensembles de données multimodales incluant la classification audio-visuelle et image-texte.
Le cadre AMEI a atteint une rétention équilibrée d'informations complémentaires à travers les modalités.
Les résultats expérimentaux ont démontré des performances supérieures comparées aux approches d'apprentissage multimodal existantes.
Les aperçus théoriques sur l'équilibre d'information ont amélioré la compréhension de l'optimisation multimodale.

Abstract

L'apprentissage multimodal vise à intégrer diverses sources de données pour capturer une information plus complète sur les choses, améliorant ainsi la perception et la compréhension du monde réel. Cependant, les discordances inhérentes entre différentes modalités conduisent souvent à une optimisation déséquilibrée durant l'apprentissage multimodal, entravant l'amélioration des performances. Pour résoudre ce problème, dans cet article, nous présentons une théorie d'Équilibre d'Information Multimodale (EIM), fondée sur la théorie de l'information, pour révéler que ce déséquilibre découle de la rétention déséquilibrée d'informations complémentaires durant la fusion des modalités, fournissant une perspective intuitive et explicable sur la question. En nous basant sur cette compréhension, nous proposons un critère théorique d'EIM pour équilibrer de manière adaptative la préservation des informations complémentaires à travers les modalités individuelles, facilitant ainsi la fusion multimodale. En utilisant ce critère, nous développons un cadre d'Apprentissage Multimodal Équilibré en Information (AMEI) pour extraire des informations multimodales complètes et équilibrées, atteignant un apprentissage optimal. Plus concrètement, l'AMEI introduit le module d'Optimisation d'Information d'Équilibre (OIE) pour maximiser des objectifs en borne inférieure tractables dérivés du critère d'EIM selon les discordances d'optimisation entre les modalités, assurant une rétention équilibrée d'informations complémentaires et améliorant les contributions d'informations lors de la fusion multimodale. De plus, nous présentons un module complémentaire et prouvable de Modulation de Complexité de Tâche (MCT) basé sur le critère d'EIM pour ajuster les discordances de complexité des tâches entre les modalités d'entrée, favorisant ainsi indirectement la préservation équilibrée de l'information complémentaire tout au long du processus d'apprentissage. Des expériences approfondies sont menées sur huit ensembles de données multimodales, couvrant la reconnaissance audio-visuelle, la classification image-texte et la reconnaissance 2D-3D, pour vérifier la supériorité et l'efficacité de l'AMEI. Le code sera publié publiquement après révision par les pairs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yang Qin

Yanglin Feng

Yanan Sun

Journals

IEEE Transactions on Pattern Analysis and Machine Intelligence

Actions

Institutions

Sichuan University

Chengdu University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Apprentissage multimodal équilibré en information profonde

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study