June 17, 2024Open Access

DocCGen: Dokumentbasierte kontrollierte Codegenerierung

Key Points

Key points are not available for this paper at this time.

Abstract

Jüngste Entwicklungen zeigen, dass Large Language Models (LLMs) eine erstklassige Leistung bei der Codegenerierung aus natürlicher Sprache (NL) für ressourcenreiche, allgemeine Programmiersprachen wie C++, Java und Python erzielen. Ihre praktische Nutzung für strukturierte domänenspezifische Sprachen (DSLs) wie YAML und JSON ist jedoch aufgrund domänenspezifischer Schemata, Grammatik und Anpassungen, die LLMs während des Pre-Trainings meist nicht gesehen haben, eingeschränkt. Es wurden Anstrengungen unternommen, diese Herausforderung durch In-Context-Lernen mittels relevanter Beispiele oder Feintuning zu mildern. Allerdings leiden diese Ansätze unter Problemen wie begrenzter DSL-Beispiele und Empfindlichkeit gegenüber Prompts, während Unternehmen oft eine gute Dokumentation der DSLs führen. Daher schlagen wir DocCGen vor, ein Framework, das dieses umfangreiche Wissen nutzen kann, indem es die NL-zu-Code-Generierungsaufgabe für strukturierte Codelanguages in einen zweistufigen Prozess unterteilt. Zuerst erkennt es anhand der Bibliotheksdokumentation die passenden Bibliotheken, die am besten zur NL-Anfrage passen. Dann nutzt es aus der Dokumentation dieser Bibliotheken extrahierte Schemaregeln, um die Dekodierung zu beschränken. Wir evaluieren unser Framework für zwei komplexe strukturierte Sprachen, Ansible YAML und Bash-Befehle, in zwei Szenarien: Out-of-Domain (OOD) und In-Domain (ID). Unsere umfangreichen Experimente zeigen, dass DocCGen verschiedene Sprachmodelle jeder Größe bei allen sechs Bewertungsmaßen konsistent verbessert und syntaktische sowie semantische Fehler in strukturiertem Code reduziert. Wir planen, die Datensätze und den Code als Open Source bereitzustellen, um die Forschung zur eingeschränkten Codegenerierung zu fördern.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sameer Pimparkhede

Mehant Kammakomati

Srikanth Tamilselvam

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DocCGen: Dokumentbasierte kontrollierte Codegenerierung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider