What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 20, 2025Open Access

Un jeton pour tromper le LLM en tant que juge

Key Points

Les résultats exposent une vulnérabilité dans l'évaluation des LLM due à des entrées superficielles appelées « clés maîtresses », conduisant à des faux positifs.
L'évaluation systématique a identifié que divers modèles, y compris GPT-o1 et Claude-4, sont affectés par ces problèmes de piratage de récompense.
Une stratégie d'augmentation de données utilisant des sorties tronquées comme exemples adversariaux améliore avec succès la robustesse contre les attaques.
La recherche souligne les défis liés à la fiabilité des LLM et fournit des perspectives pour améliorer les stratégies d'évaluation et la recherche future.

Abstract

Les grands modèles de langage (LLM) sont de plus en plus utilisés comme juges automatisés, aidant à l'évaluation et fournissant des signaux de récompense pour l'entraînement d'autres modèles, notamment dans des contextes basés sur des références comme l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Cependant, nous découvrons une vulnérabilité critique même dans ce paradigme basé sur des références : les modèles génératifs de récompense sont systématiquement susceptibles au piratage de récompense. Nous constatons que des entrées superficielles, que nous appelons « clés maîtresses » telles que des symboles non-mots (par exemple, ':' ou '.') ou des amorces génériques de raisonnement (par exemple, « Processus de pensée : » ou « Résolvons ce problème étape par étape. »), peuvent systématiquement susciter des récompenses faussement positives sans aucun raisonnement substantiel. Notre évaluation systématique démontre que cette défaillance est répandue et affecte une gamme diversifiée de modèles, y compris des systèmes propriétaires de premier plan comme GPT-o1 et Claude-4. Ces résultats remettent en cause la robustesse supposée des juges LLM et constituent une menace importante pour leur fiabilité. Pour y remédier, nous proposons une stratégie simple mais efficace d'augmentation de données utilisant des sorties tronquées du modèle comme exemples négatifs adversariaux. Les modèles de récompense maîtres résultants (Master-RMs) montrent une robustesse à la fine pointe face à ces attaques par « clés maîtresses » tout en maintenant une haute performance dans les contextes d'évaluation standards. Nous complétons ces résultats par une analyse complète de la vulnérabilité selon les tailles de modèles, les variations de prompt et les stratégies communes en temps d'inférence, offrant des perspectives pour orienter les futures recherches sur l'évaluation robuste des LLM. Nous publions nos modèles de récompense robustes et généralistes ainsi que les données d'entraînement synthétiques sur https://huggingface.co/sarosavo/Master-RM et https://huggingface.co/datasets/sarosavo/Master-RM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yingsi Zhao

Haolin Liu

Dapeng Yu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Un jeton pour tromper le LLM en tant que juge

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider