August 10, 2024Open Access

Les LLM peuvent-ils remplacer l'annotation manuelle des artefacts de génie logiciel ?

Key Points

Key points are not available for this paper at this time.

Abstract

Les évaluations expérimentales des innovations en génie logiciel, par exemple les outils et les processus, incluent souvent des études avec des sujets humains comme composante d'une stratégie à plusieurs volets pour obtenir une plus grande généralisabilité des résultats. Cependant, les études avec sujets humains dans notre domaine sont difficiles, en raison du coût et de la difficulté à trouver et à recruter des sujets appropriés, idéalement des programmeurs professionnels avec différents degrés d'expérience. Parallèlement, les grands modèles de langage (LLM) ont récemment commencé à démontrer des performances au niveau humain dans plusieurs domaines. Cet article explore la possibilité de substituer les sujets humains coûteux par des requêtes LLM beaucoup moins chères dans les évaluations de code et d'artefacts liés au code. Nous étudions cette idée en appliquant six LLMs à la pointe de la technologie à dix tâches d'annotation issues de cinq ensembles de données créés par des travaux antérieurs, comme juger de l'exactitude d'un résumé en langage naturel d'une méthode ou décider si un changement de code corrige un avertissement d'analyse statique. Nos résultats montrent que remplacer une partie de l'effort d'annotation humaine par des LLMs peut produire des accords inter-évaluateurs égaux ou proches de l'accord entre évaluateurs humains. Pour aider à décider quand et comment utiliser les LLMs dans les études avec sujets humains, nous proposons l'accord modèle-modèle comme prédicteur de la pertinence d'une tâche donnée pour les LLMs, et la confiance du modèle comme moyen de sélectionner des échantillons spécifiques où les LLMs peuvent remplacer en toute sécurité les annotateurs humains. Dans l'ensemble, notre travail constitue une première étape vers des évaluations mixtes humain-LLM en génie logiciel.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Toufique Ahmed

Prémkumar Dévanbu

Christoph Treude

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Les LLM peuvent-ils remplacer l'annotation manuelle des artefacts de génie logiciel ?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider