June 27, 2024Open Access

LiveBench : Un benchmark LLM exigeant et sans contamination

Key Points

Key points are not available for this paper at this time.

Abstract

La contamination du jeu de test, où les données de test d'un benchmark se retrouvent dans l'ensemble d'entraînement d'un modèle plus récent, est un obstacle bien documenté pour une évaluation équitable des LLM et peut rapidement rendre les benchmarks obsolètes. Pour y remédier, de nombreux benchmarks récents collectent de nouvelles invites et évaluations via des juges humains ou des LLM ; cependant, cela peut introduire des biais significatifs et échouer lors de la notation de questions difficiles. Dans ce travail, nous présentons un nouveau benchmark pour LLM conçu pour être à l'abri à la fois de la contamination du jeu de test et des écueils du jugement des LLM et du crowdsourcing humain. Nous publions LiveBench, le premier benchmark qui (1) contient des questions mises à jour fréquemment à partir de sources d'information récentes, (2) évalue automatiquement les réponses selon des valeurs objectives de référence, et (3) couvre une grande variété de tâches difficiles, incluant les mathématiques, la programmation, le raisonnement, la langue, le suivi des instructions et l'analyse de données. Pour cela, LiveBench contient des questions basées sur des compétitions mathématiques récemment publiées, des articles arXiv, des articles de presse et des ensembles de données, et propose des versions plus difficiles et sans contamination de tâches issues de benchmarks antérieurs tels que Big-Bench Hard, AMPS et IFEval. Nous évaluons de nombreux modèles fermés de premier plan ainsi que des dizaines de modèles open source allant de 0,5B à 110B paramètres. LiveBench est difficile, avec les meilleurs modèles atteignant moins de 65 % de précision. Nous publions toutes les questions, le code et les réponses modèles. Les questions seront ajoutées et mises à jour mensuellement, et nous publierons de nouvelles tâches ainsi que des versions plus difficiles au fil du temps afin que LiveBench puisse distinguer les capacités des LLM à mesure de leur amélioration future. Nous encourageons l'engagement et la collaboration de la communauté pour étendre les tâches et modèles du benchmark.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Colin White

Samuel Dooley

Manley Roberts

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LiveBench : Un benchmark LLM exigeant et sans contamination

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider