Key points are not available for this paper at this time.
Les évaluations expérimentales des innovations en génie logiciel, par exemple les outils et les processus, incluent souvent des études avec des sujets humains comme composante d'une stratégie à plusieurs volets pour obtenir une plus grande généralisabilité des résultats. Cependant, les études avec sujets humains dans notre domaine sont difficiles, en raison du coût et de la difficulté à trouver et à recruter des sujets appropriés, idéalement des programmeurs professionnels avec différents degrés d'expérience. Parallèlement, les grands modèles de langage (LLM) ont récemment commencé à démontrer des performances au niveau humain dans plusieurs domaines. Cet article explore la possibilité de substituer les sujets humains coûteux par des requêtes LLM beaucoup moins chères dans les évaluations de code et d'artefacts liés au code. Nous étudions cette idée en appliquant six LLMs à la pointe de la technologie à dix tâches d'annotation issues de cinq ensembles de données créés par des travaux antérieurs, comme juger de l'exactitude d'un résumé en langage naturel d'une méthode ou décider si un changement de code corrige un avertissement d'analyse statique. Nos résultats montrent que remplacer une partie de l'effort d'annotation humaine par des LLMs peut produire des accords inter-évaluateurs égaux ou proches de l'accord entre évaluateurs humains. Pour aider à décider quand et comment utiliser les LLMs dans les études avec sujets humains, nous proposons l'accord modèle-modèle comme prédicteur de la pertinence d'une tâche donnée pour les LLMs, et la confiance du modèle comme moyen de sélectionner des échantillons spécifiques où les LLMs peuvent remplacer en toute sécurité les annotateurs humains. Dans l'ensemble, notre travail constitue une première étape vers des évaluations mixtes humain-LLM en génie logiciel.
Building similarity graph...
Analyzing shared references across papers
Loading...
Toufique Ahmed
Prémkumar Dévanbu
Christoph Treude
Building similarity graph...
Analyzing shared references across papers
Loading...
Ahmed et al. (Sat,) ont étudié cette question.
www.synapsesocial.com/papers/68e5cc6bb6db643587562c5d — DOI: https://doi.org/10.48550/arxiv.2408.05534
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: