Key points are not available for this paper at this time.
Um die Bewertung von Codegenerierungssystemen in verschiedenen Szenarien zu erleichtern, stellen wir CodeBenchGen vor, ein Framework zur Erstellung skalierbarer, ausführungsbasierter Benchmarks, das nur eine geringe menschliche Anleitung erfordert. Konkret nutzen wir ein großes Sprachmodell (LLM), um einen beliebigen Codeabschnitt in ein Bewertungsexemplar umzuwandeln, einschließlich Testfällen für die ausführungsbasierte Bewertung. Die Nützlichkeit unseres Frameworks veranschaulichen wir durch die Erstellung eines Datensatzes, Exec-CSN, der 1.931 Beispiele mit 293 Bibliotheken enthält, die aus Code in 367 GitHub-Repositorien des CodeSearchNet-Datensatzes überarbeitet wurden. Um die Komplexität und Lösbarkeit der Beispiele in Exec-CSN zu demonstrieren, präsentieren wir eine Humanstudie, die zeigt, dass 81,3 % der Beispiele von Menschen gelöst werden können und 61 % als "erfordert Anstrengung zur Lösung" eingestuft werden. Wir führen Experimente zur Codegenerierung mit Open-Source- und proprietären Modellen durch und analysieren die Leistung von Menschen und Modellen. Wir werden den Code sowohl des Frameworks als auch des Datensatzes nach Annahme veröffentlichen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yiqing Xie
Alex Xie
Divyanshu Sheth
Building similarity graph...
Analyzing shared references across papers
Loading...
Xie et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e7180db6db6435876918af — DOI: https://doi.org/10.48550/arxiv.2404.00566
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: