August 14, 2024Open Access

Ein System zur automatisierten Generierung von Unit-Tests mit großen Sprachmodellen und Bewertung der generierten Test-Suiten

Key Points

Key points are not available for this paper at this time.

Abstract

Unit-Tests stellen die grundlegendste Ebene des Testens im Software-Test-Lebenszyklus dar und sind entscheidend für die Sicherstellung der Software-Korrektheit. Das Entwerfen und Erstellen von Unit-Tests ist ein kostspieliger und arbeitsintensiver Prozess, der sich gut für die Automatisierung eignet. Kürzlich wurden große Sprachmodelle (LLMs) auf verschiedene Aspekte der Softwareentwicklung angewandt, einschließlich der Generierung von Unit-Tests. Obwohl mehrere empirische Studien die Fähigkeiten von LLMs bei der Erstellung von Testcode bewertet haben, konzentrieren sich diese hauptsächlich auf einfache Szenarien, wie die unkomplizierte Erstellung von Unit-Tests für einzelne Methoden. Diese Bewertungen beinhalten oft unabhängige und kleinmaßstäbliche Testeinheiten, was einen begrenzten Einblick in die Leistung von LLMs in realen Softwareentwicklungs-Szenarien bietet. Zudem nähern sich frühere Studien dem Problem nicht in einem angemessenen Umfang für den realen Einsatz. Generierte Unit-Tests werden häufig durch manuelle Integration in die ursprünglichen Projekte bewertet, ein Verfahren, das die Anzahl der ausgeführten Tests begrenzt und die Gesamteffizienz verringert. Um diese Lücken zu adressieren, haben wir einen Ansatz zur Generierung und Bewertung von Testsuiten mit realitätsnaher Komplexität entwickelt. Unser Ansatz konzentriert sich auf die Generierung von Testcode auf Klassenebene und automatisiert den gesamten Prozess von der Testgenerierung bis zur Testbewertung. In dieser Arbeit stellen wir AgoneTest vor: ein automatisiertes System zur Generierung von Testsuiten für Java-Projekte sowie eine umfassende und prinzipielle Methodik zur Bewertung der generierten Testsuiten. Ausgehend von einem hochmodernen Datensatz (d.h. Methods2Test) haben wir einen neuen Datensatz erstellt, um menschlich geschriebene Tests mit von LLMs generierten zu vergleichen. Unsere wichtigsten Beiträge umfassen ein skalierbares automatisiertes Softwaresystem, einen neuen Datensatz und eine detaillierte Methodik zur Bewertung der Testqualität.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Andrea Lops

Fedelucio Narducci

Azzurra Ragone

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Ein System zur automatisierten Generierung von Unit-Tests mit großen Sprachmodellen und Bewertung der generierten Test-Suiten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study