Key points are not available for this paper at this time.
테스팅은 버그, 취약점 및 기타 바람직하지 않은 동작을 발견할 수 있게 하여 소프트웨어 개발 주기에서 중요한 역할을 합니다. 소프트웨어 테스팅을 수행하려면 테스터가 테스트 대상 프로그램을 실행하는 코드 스니펫을 작성해야 합니다. 최근 연구자들은 소프트웨어 테스트에서 대형 언어 모델(LLM)의 잠재력을 인식했습니다. 그러나 테스트 케이스 생성 능력 측면에서 서로 다른 LLM 간의 공정한 비교는 여전히 부족합니다. 본 논문에서는 LLM을 활용한 테스트 케이스 생성을 위한 새로운 벤치마크인 TESTEVAL을 제안합니다. 우리는 온라인 프로그래밍 플랫폼 LeetCode에서 210개의 파이썬 프로그램을 수집하고, 전체 커버리지, 특정 라인/분기 커버리지 및 특정 경로 커버리지의 세 가지 다른 과제를 설계했습니다. 또한 상업용과 오픈 소스 LLM 16종을 TESTEVAL에서 평가했습니다. 특정 프로그램 라인/분기/경로를 커버하는 테스트 케이스 생성은 현재 LLM에 여전히 도전적인 과제로, 프로그램 논리와 실행 경로를 이해하는 능력이 부족함을 시사합니다. 우리는 향후 소프트웨어 테스팅용 LLM 연구를 기여하고 가속화하기 위해 데이터셋과 벤치마크 파이프라인을 https://llm4softwaretesting.github.io 에 오픈소스로 공개했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenhan Wang
Chenyuan Yang
Zhijie Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang 등(Thu,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e65d1eb6db6435875ebae4 — DOI: https://doi.org/10.48550/arxiv.2406.04531
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: