Key points are not available for this paper at this time.
La contamination du jeu de test, où les données de test d'un benchmark se retrouvent dans l'ensemble d'entraînement d'un modèle plus récent, est un obstacle bien documenté pour une évaluation équitable des LLM et peut rapidement rendre les benchmarks obsolètes. Pour y remédier, de nombreux benchmarks récents collectent de nouvelles invites et évaluations via des juges humains ou des LLM ; cependant, cela peut introduire des biais significatifs et échouer lors de la notation de questions difficiles. Dans ce travail, nous présentons un nouveau benchmark pour LLM conçu pour être à l'abri à la fois de la contamination du jeu de test et des écueils du jugement des LLM et du crowdsourcing humain. Nous publions LiveBench, le premier benchmark qui (1) contient des questions mises à jour fréquemment à partir de sources d'information récentes, (2) évalue automatiquement les réponses selon des valeurs objectives de référence, et (3) couvre une grande variété de tâches difficiles, incluant les mathématiques, la programmation, le raisonnement, la langue, le suivi des instructions et l'analyse de données. Pour cela, LiveBench contient des questions basées sur des compétitions mathématiques récemment publiées, des articles arXiv, des articles de presse et des ensembles de données, et propose des versions plus difficiles et sans contamination de tâches issues de benchmarks antérieurs tels que Big-Bench Hard, AMPS et IFEval. Nous évaluons de nombreux modèles fermés de premier plan ainsi que des dizaines de modèles open source allant de 0,5B à 110B paramètres. LiveBench est difficile, avec les meilleurs modèles atteignant moins de 65 % de précision. Nous publions toutes les questions, le code et les réponses modèles. Les questions seront ajoutées et mises à jour mensuellement, et nous publierons de nouvelles tâches ainsi que des versions plus difficiles au fil du temps afin que LiveBench puisse distinguer les capacités des LLM à mesure de leur amélioration future. Nous encourageons l'engagement et la collaboration de la communauté pour étendre les tâches et modèles du benchmark.
Building similarity graph...
Analyzing shared references across papers
Loading...
Colin White
Samuel Dooley
Manley Roberts
Building similarity graph...
Analyzing shared references across papers
Loading...
White et al. (jeu.) ont étudié cette question.
www.synapsesocial.com/papers/68e62eabb6db6435875c1573 — DOI: https://doi.org/10.48550/arxiv.2406.19314
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: