Key points are not available for this paper at this time.
Unit-Tests stellen die grundlegendste Ebene des Testens im Software-Test-Lebenszyklus dar und sind entscheidend für die Sicherstellung der Software-Korrektheit. Das Entwerfen und Erstellen von Unit-Tests ist ein kostspieliger und arbeitsintensiver Prozess, der sich gut für die Automatisierung eignet. Kürzlich wurden große Sprachmodelle (LLMs) auf verschiedene Aspekte der Softwareentwicklung angewandt, einschließlich der Generierung von Unit-Tests. Obwohl mehrere empirische Studien die Fähigkeiten von LLMs bei der Erstellung von Testcode bewertet haben, konzentrieren sich diese hauptsächlich auf einfache Szenarien, wie die unkomplizierte Erstellung von Unit-Tests für einzelne Methoden. Diese Bewertungen beinhalten oft unabhängige und kleinmaßstäbliche Testeinheiten, was einen begrenzten Einblick in die Leistung von LLMs in realen Softwareentwicklungs-Szenarien bietet. Zudem nähern sich frühere Studien dem Problem nicht in einem angemessenen Umfang für den realen Einsatz. Generierte Unit-Tests werden häufig durch manuelle Integration in die ursprünglichen Projekte bewertet, ein Verfahren, das die Anzahl der ausgeführten Tests begrenzt und die Gesamteffizienz verringert. Um diese Lücken zu adressieren, haben wir einen Ansatz zur Generierung und Bewertung von Testsuiten mit realitätsnaher Komplexität entwickelt. Unser Ansatz konzentriert sich auf die Generierung von Testcode auf Klassenebene und automatisiert den gesamten Prozess von der Testgenerierung bis zur Testbewertung. In dieser Arbeit stellen wir AgoneTest vor: ein automatisiertes System zur Generierung von Testsuiten für Java-Projekte sowie eine umfassende und prinzipielle Methodik zur Bewertung der generierten Testsuiten. Ausgehend von einem hochmodernen Datensatz (d.h. Methods2Test) haben wir einen neuen Datensatz erstellt, um menschlich geschriebene Tests mit von LLMs generierten zu vergleichen. Unsere wichtigsten Beiträge umfassen ein skalierbares automatisiertes Softwaresystem, einen neuen Datensatz und eine detaillierte Methodik zur Bewertung der Testqualität.
Building similarity graph...
Analyzing shared references across papers
Loading...
Andrea Lops
Fedelucio Narducci
Azzurra Ragone
Building similarity graph...
Analyzing shared references across papers
Loading...
Lops et al. (Mittw.) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e5c747b6db64358755d8ae — DOI: https://doi.org/10.48550/arxiv.2408.07846