다양한 산업 분야의 소프트웨어 엔지니어들은 이미 대형 언어 모델(LLM)을 활용하여 소프트웨어 시스템 구현의 일부 과정을 가속화하고 있습니다. 자동차 맥락에서 ADAS 또는 AD 시스템에 이를 적용하는 것을 고려할 때, 새로운 설정을 체계적으로 평가할 필요가 있습니다: LLM은 확률적 특성으로 인해 안전 관련 시스템 개발에 잘 알려진 위험 요소를 내포하고 있습니다. LLM이 생성한 코드를 평가하는 코드 리뷰어의 부담을 줄이기 위해, 우리는 생성된 코드에 대한 정상성 검사를 수행하는 평가 파이프라인을 제안합니다. 우리는 CodeLlama, CodeGemma, DeepSeek-r1, DeepSeek-Coders, Mistral, GPT-4 등 6개의 최신 LLM을 4개의 안전 관련 프로그래밍 작업에서 성능 비교합니다. 추가로, 이 LLM들이 자주 발생시키는 결함을 정성적으로 분석하여 리뷰어를 지원하는 실패 모드 카탈로그를 작성하였습니다. 마지막으로, 코드 생성에서 LLM의 한계와 능력 및 제안된 파이프라인의 기존 프로세스 내 적용에 대해 논의합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ali Nouri
Beatriz Cabrero‐Daniel
Zhennan Fei
Building similarity graph...
Analyzing shared references across papers
Loading...
Nouri 등(월요일)은 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68da5a3ec1728099cfd11a7a — DOI: https://doi.org/10.48550/arxiv.2505.19658
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: