L'émergence des modèles langage-vision (VLM) comme CLIP (Pré-entraînement contrastif texte-image) offre des solutions attrayantes à divers problèmes de vision, y compris la reconnaissance dynamique des expressions faciales (DFER). Cependant, la plupart des approches proposées rencontrent de grands défis, notamment liés à l'affinement complet inefficace des encodeurs et à la complexité des modèles. De plus, certaines des méthodes proposées semblent avoir des performances sous-optimales en raison de (i) un mauvais alignement entre les représentations textuelles et visuelles, et (ii) une modélisation temporelle inefficace. Pour relever ces défis, nous proposons PE-CLIP, un cadre d'affinement fin paramètre-efficace (PEFT) qui adapte élégamment CLIP pour la reconnaissance dynamique des expressions faciales, nécessitant un nombre de paramètres entraînables considérablement réduit tout en maintenant une haute précision. Au cœur de ce système, pour améliorer l'efficacité et la performance, PE-CLIP introduit deux adaptateurs spécialisés, à savoir un Adaptateur Dynamique Temporel (TDA) et un Adaptateur Partagé (ShA). L'adaptateur dynamique temporel est un module basé sur GRU avec un mécanisme de mise à l'échelle dynamique, capturant les dépendances séquentielles tout en modulant de manière adaptative la contribution de chaque caractéristique temporelle pour souligner les plus informatives tout en atténuant les variations non pertinentes. L'adaptateur partagé est un adaptateur léger qui affine les représentations au sein des encodeurs textuels et visuels, garantissant un traitement cohérent des caractéristiques tout en maintenant l'efficacité des paramètres. De plus, nous exploitons l'apprentissage multi-modal par incitations (MaPLe), qui introduit des incitations apprenables pour les entrées textuelles basées sur des unités visuelles et d'action, améliorant ainsi davantage l'alignement sémantique entre les modalités et permettant une adaptation efficace de CLIP pour des tâches dynamiques. Nous évaluons notre PE-CLIP proposé sur deux ensembles de données de référence, à savoir DFEW, FERV39K et AFEW, atteignant des performances compétitives par rapport aux méthodes à la pointe de la technologie tout en nécessitant moins de paramètres entraînables. En trouvant un équilibre optimal entre efficacité des paramètres et performance, PE-CLIP établit une nouvelle référence en DFER efficace en ressources. Le code source de PE-CLIP proposé sera disponible publiquement à https://github.com/Ibtissam-SAADI/PE-CLIP.
Saadi et al. (Mon,) ont étudié cette question.