July 6, 2023Open Access

Une enquête sur l'évaluation des grands modèles de langage

Key Points

Key points are not available for this paper at this time.

Abstract

Les grands modèles de langage (LLMs) gagnent en popularité tant dans le milieu académique que dans l'industrie, grâce à leur performance sans précédent dans diverses applications. Alors que les LLMs continuent de jouer un rôle essentiel à la fois en recherche et dans l'usage quotidien, leur évaluation devient de plus en plus critique, non seulement au niveau des tâches, mais aussi au niveau sociétal afin de mieux comprendre leurs risques potentiels. Au cours des dernières années, des efforts significatifs ont été déployés pour examiner les LLMs sous divers angles. Cet article présente une revue complète de ces méthodes d'évaluation des LLMs, en se concentrant sur trois dimensions clés : quoi évaluer, où évaluer et comment évaluer. Tout d'abord, nous fournissons un aperçu du point de vue des tâches d'évaluation, englobant les tâches générales de traitement du langage naturel, le raisonnement, l'utilisation médicale, l'éthique, l'éducation, les sciences naturelles et sociales, les applications d'agents, et d'autres domaines. Ensuite, nous répondons aux questions « où » et « comment » en explorant les méthodes d'évaluation et les benchmarks, qui représentent des composantes cruciales pour mesurer la performance des LLMs. Puis, nous résumons les cas de succès et d'échec des LLMs dans différentes tâches. Enfin, nous mettons en lumière plusieurs défis futurs qui se profilent dans l'évaluation des LLMs. Notre objectif est d'offrir des perspectives précieuses aux chercheurs dans le domaine de l'évaluation des LLMs, aidant ainsi au développement de LLMs plus performants. Notre point clé est que l'évaluation devrait être considérée comme une discipline essentielle pour mieux accompagner le développement des LLMs. Nous maintenons constamment les matériaux open-source associés à : https://github.com/MLGroupJLU/LLM-eval-survey.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yupeng Chang

Xu Wang

Jindong Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Une enquête sur l'évaluation des grands modèles de langage

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study