Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) gagnent en popularité tant dans le milieu académique que dans l'industrie, grâce à leur performance sans précédent dans diverses applications. Alors que les LLMs continuent de jouer un rôle essentiel à la fois en recherche et dans l'usage quotidien, leur évaluation devient de plus en plus critique, non seulement au niveau des tâches, mais aussi au niveau sociétal afin de mieux comprendre leurs risques potentiels. Au cours des dernières années, des efforts significatifs ont été déployés pour examiner les LLMs sous divers angles. Cet article présente une revue complète de ces méthodes d'évaluation des LLMs, en se concentrant sur trois dimensions clés : quoi évaluer, où évaluer et comment évaluer. Tout d'abord, nous fournissons un aperçu du point de vue des tâches d'évaluation, englobant les tâches générales de traitement du langage naturel, le raisonnement, l'utilisation médicale, l'éthique, l'éducation, les sciences naturelles et sociales, les applications d'agents, et d'autres domaines. Ensuite, nous répondons aux questions « où » et « comment » en explorant les méthodes d'évaluation et les benchmarks, qui représentent des composantes cruciales pour mesurer la performance des LLMs. Puis, nous résumons les cas de succès et d'échec des LLMs dans différentes tâches. Enfin, nous mettons en lumière plusieurs défis futurs qui se profilent dans l'évaluation des LLMs. Notre objectif est d'offrir des perspectives précieuses aux chercheurs dans le domaine de l'évaluation des LLMs, aidant ainsi au développement de LLMs plus performants. Notre point clé est que l'évaluation devrait être considérée comme une discipline essentielle pour mieux accompagner le développement des LLMs. Nous maintenons constamment les matériaux open-source associés à : https://github.com/MLGroupJLU/LLM-eval-survey.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yupeng Chang
Xu Wang
Jindong Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Chang et al. (jeu,) ont étudié cette question.
www.synapsesocial.com/papers/69d6a7c975cae9790bed8836 — DOI: https://doi.org/10.48550/arxiv.2307.03109