March 31, 2024Open Access

CodeBenchGen: Erstellung skalierbarer, ausführungsbasierter Benchmarks für Codegenerierung

Key Points

Key points are not available for this paper at this time.

Abstract

Um die Bewertung von Codegenerierungssystemen in verschiedenen Szenarien zu erleichtern, stellen wir CodeBenchGen vor, ein Framework zur Erstellung skalierbarer, ausführungsbasierter Benchmarks, das nur eine geringe menschliche Anleitung erfordert. Konkret nutzen wir ein großes Sprachmodell (LLM), um einen beliebigen Codeabschnitt in ein Bewertungsexemplar umzuwandeln, einschließlich Testfällen für die ausführungsbasierte Bewertung. Die Nützlichkeit unseres Frameworks veranschaulichen wir durch die Erstellung eines Datensatzes, Exec-CSN, der 1.931 Beispiele mit 293 Bibliotheken enthält, die aus Code in 367 GitHub-Repositorien des CodeSearchNet-Datensatzes überarbeitet wurden. Um die Komplexität und Lösbarkeit der Beispiele in Exec-CSN zu demonstrieren, präsentieren wir eine Humanstudie, die zeigt, dass 81,3 % der Beispiele von Menschen gelöst werden können und 61 % als "erfordert Anstrengung zur Lösung" eingestuft werden. Wir führen Experimente zur Codegenerierung mit Open-Source- und proprietären Modellen durch und analysieren die Leistung von Menschen und Modellen. Wir werden den Code sowohl des Frameworks als auch des Datensatzes nach Annahme veröffentlichen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yiqing Xie

Alex Xie

Divyanshu Sheth

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CodeBenchGen: Erstellung skalierbarer, ausführungsbasierter Benchmarks für Codegenerierung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider