What question did this study set out to answer?

La recherche vise à améliorer le processus de reconnaissance dynamique des expressions faciales en utilisant un cadre d’affinement fin paramètre-efficace.

January 21, 2026

PE-CLIP : Un affinement fin paramètre-efficace des modèles de langage visuel pour la reconnaissance dynamique des expressions faciales

Key Points

La recherche vise à améliorer le processus de reconnaissance dynamique des expressions faciales en utilisant un cadre d’affinement fin paramètre-efficace.
Propose PE-CLIP, un nouveau cadre d’affinement fin paramètre-efficace pour CLIP.
Introduit un Adaptateur Dynamique Temporel (TDA) basé sur GRU pour capturer les dépendances séquentielles.
Implémente un Adaptateur Partagé (ShA) pour un traitement cohérent des caractéristiques dans les encodeurs textuels et visuels.
Applique l’apprentisage multi-modal par incitations (MaPLe) pour améliorer l’alignement sémantique entre les entrées visuelles et textuelles.
Évalue les performances sur les ensembles de données de référence DFEW, FERV39K et AFEW.
Atteint des performances compétitives par rapport aux méthodes à la pointe de la technologie tout en utilisant moins de paramètres entraînables.
Démontre un meilleur alignement entre les représentations textuelles et visuelles.
Montre une modélisation temporelle efficace pour les expressions faciales dynamiques.

Abstract

L'émergence des modèles langage-vision (VLM) comme CLIP (Pré-entraînement contrastif texte-image) offre des solutions attrayantes à divers problèmes de vision, y compris la reconnaissance dynamique des expressions faciales (DFER). Cependant, la plupart des approches proposées rencontrent de grands défis, notamment liés à l'affinement complet inefficace des encodeurs et à la complexité des modèles. De plus, certaines des méthodes proposées semblent avoir des performances sous-optimales en raison de (i) un mauvais alignement entre les représentations textuelles et visuelles, et (ii) une modélisation temporelle inefficace. Pour relever ces défis, nous proposons PE-CLIP, un cadre d'affinement fin paramètre-efficace (PEFT) qui adapte élégamment CLIP pour la reconnaissance dynamique des expressions faciales, nécessitant un nombre de paramètres entraînables considérablement réduit tout en maintenant une haute précision. Au cœur de ce système, pour améliorer l'efficacité et la performance, PE-CLIP introduit deux adaptateurs spécialisés, à savoir un Adaptateur Dynamique Temporel (TDA) et un Adaptateur Partagé (ShA). L'adaptateur dynamique temporel est un module basé sur GRU avec un mécanisme de mise à l'échelle dynamique, capturant les dépendances séquentielles tout en modulant de manière adaptative la contribution de chaque caractéristique temporelle pour souligner les plus informatives tout en atténuant les variations non pertinentes. L'adaptateur partagé est un adaptateur léger qui affine les représentations au sein des encodeurs textuels et visuels, garantissant un traitement cohérent des caractéristiques tout en maintenant l'efficacité des paramètres. De plus, nous exploitons l'apprentissage multi-modal par incitations (MaPLe), qui introduit des incitations apprenables pour les entrées textuelles basées sur des unités visuelles et d'action, améliorant ainsi davantage l'alignement sémantique entre les modalités et permettant une adaptation efficace de CLIP pour des tâches dynamiques. Nous évaluons notre PE-CLIP proposé sur deux ensembles de données de référence, à savoir DFEW, FERV39K et AFEW, atteignant des performances compétitives par rapport aux méthodes à la pointe de la technologie tout en nécessitant moins de paramètres entraînables. En trouvant un équilibre optimal entre efficacité des paramètres et performance, PE-CLIP établit une nouvelle référence en DFER efficace en ressources. Le code source de PE-CLIP proposé sera disponible publiquement à https://github.com/Ibtissam-SAADI/PE-CLIP.

Bookmark

PE-CLIP : Un affinement fin paramètre-efficace des modèles de langage visuel pour la reconnaissance dynamique des expressions faciales

Key Points

Abstract

Cite This Study