Les grands modèles de langage (LLM) sont de plus en plus utilisés comme juges automatisés, aidant à l'évaluation et fournissant des signaux de récompense pour l'entraînement d'autres modèles, notamment dans des contextes basés sur des références comme l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Cependant, nous découvrons une vulnérabilité critique même dans ce paradigme basé sur des références : les modèles génératifs de récompense sont systématiquement susceptibles au piratage de récompense. Nous constatons que des entrées superficielles, que nous appelons « clés maîtresses » telles que des symboles non-mots (par exemple, ':' ou '.') ou des amorces génériques de raisonnement (par exemple, « Processus de pensée : » ou « Résolvons ce problème étape par étape. »), peuvent systématiquement susciter des récompenses faussement positives sans aucun raisonnement substantiel. Notre évaluation systématique démontre que cette défaillance est répandue et affecte une gamme diversifiée de modèles, y compris des systèmes propriétaires de premier plan comme GPT-o1 et Claude-4. Ces résultats remettent en cause la robustesse supposée des juges LLM et constituent une menace importante pour leur fiabilité. Pour y remédier, nous proposons une stratégie simple mais efficace d'augmentation de données utilisant des sorties tronquées du modèle comme exemples négatifs adversariaux. Les modèles de récompense maîtres résultants (Master-RMs) montrent une robustesse à la fine pointe face à ces attaques par « clés maîtresses » tout en maintenant une haute performance dans les contextes d'évaluation standards. Nous complétons ces résultats par une analyse complète de la vulnérabilité selon les tailles de modèles, les variations de prompt et les stratégies communes en temps d'inférence, offrant des perspectives pour orienter les futures recherches sur l'évaluation robuste des LLM. Nous publions nos modèles de récompense robustes et généralistes ainsi que les données d'entraînement synthétiques sur https://huggingface.co/sarosavo/Master-RM et https://huggingface.co/datasets/sarosavo/Master-RM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yingsi Zhao
Haolin Liu
Dapeng Yu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Fri,) ont étudié cette question.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac36268 — DOI: https://doi.org/10.48550/arxiv.2507.08794
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: