L'apprentissage multimodal vise à intégrer diverses sources de données pour capturer une information plus complète sur les choses, améliorant ainsi la perception et la compréhension du monde réel. Cependant, les discordances inhérentes entre différentes modalités conduisent souvent à une optimisation déséquilibrée durant l'apprentissage multimodal, entravant l'amélioration des performances. Pour résoudre ce problème, dans cet article, nous présentons une théorie d'Équilibre d'Information Multimodale (EIM), fondée sur la théorie de l'information, pour révéler que ce déséquilibre découle de la rétention déséquilibrée d'informations complémentaires durant la fusion des modalités, fournissant une perspective intuitive et explicable sur la question. En nous basant sur cette compréhension, nous proposons un critère théorique d'EIM pour équilibrer de manière adaptative la préservation des informations complémentaires à travers les modalités individuelles, facilitant ainsi la fusion multimodale. En utilisant ce critère, nous développons un cadre d'Apprentissage Multimodal Équilibré en Information (AMEI) pour extraire des informations multimodales complètes et équilibrées, atteignant un apprentissage optimal. Plus concrètement, l'AMEI introduit le module d'Optimisation d'Information d'Équilibre (OIE) pour maximiser des objectifs en borne inférieure tractables dérivés du critère d'EIM selon les discordances d'optimisation entre les modalités, assurant une rétention équilibrée d'informations complémentaires et améliorant les contributions d'informations lors de la fusion multimodale. De plus, nous présentons un module complémentaire et prouvable de Modulation de Complexité de Tâche (MCT) basé sur le critère d'EIM pour ajuster les discordances de complexité des tâches entre les modalités d'entrée, favorisant ainsi indirectement la préservation équilibrée de l'information complémentaire tout au long du processus d'apprentissage. Des expériences approfondies sont menées sur huit ensembles de données multimodales, couvrant la reconnaissance audio-visuelle, la classification image-texte et la reconnaissance 2D-3D, pour vérifier la supériorité et l'efficacité de l'AMEI. Le code sera publié publiquement après révision par les pairs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Qin
Yanglin Feng
Yanan Sun
IEEE Transactions on Pattern Analysis and Machine Intelligence
Sichuan University
Chengdu University
Building similarity graph...
Analyzing shared references across papers
Loading...
Qin et al. (Jeudi,) ont étudié cette question.
www.synapsesocial.com/papers/69d894ce6c1944d70ce05bc2 — DOI: https://doi.org/10.1109/tpami.2026.3681770