L’alignement des préférences via l’Optimisation Directe des Préférences (DPO) a démontré une efficacité significative dans l’alignement des modèles de langage large multimodaux (MLLMs) avec les préférences humaines. Cependant, les méthodes existantes se concentrent principalement sur les préférences linguistiques tout en négligeant le contexte visuel critique. Dans cet article, nous proposons une optimisation adaptative des préférences améliorée par la vision (AdaViP) qui répond à ces limites grâce à deux innovations clés : (1) la construction de paires de préférences basée sur la vision, qui intègre plusieurs modèles fondamentaux visuels afin de supprimer stratégiquement des éléments visuels clés de l’image, améliorant la sensibilité des MLLMs aux détails visuels ; et (2) une optimisation adaptative des préférences qui équilibre dynamiquement les préférences basées sur la vision et le langage pour un alignement plus précis. Des évaluations étendues sur différents benchmarks démontrent notre efficacité. Notamment, notre AdaViP-7B atteint des réductions de 93,7 % et 96,4 % au niveau des réponses et du niveau des mentions respectivement sur l’Object HalBench, surpassant significativement les méthodes actuelles d’état de l’art.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinda Lu
Jingrui Li
Yuan Gao
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu et al. (mar.,) ont étudié cette question.
www.synapsesocial.com/papers/68dd91c7fe798ba2fc4985a5 — DOI: https://doi.org/10.48550/arxiv.2504.15619
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: