What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

안전한 자율주행 차량을 위한 코드 공동 생성에서 대형 언어 모델

Key Points

제안된 평가 파이프라인은 자동차 시스템에서 LLM이 생성한 안전 관련 코드 문제를 효과적으로 식별합니다.
6개 LLM을 4개 프로그래밍 작업에서 비교 평가하여 안전한 코드 생성 능력의 차이를 확인하였습니다.
가장 흔한 결함을 문서화한 실패 모드 카탈로그를 만들어 코드 평가 시 인간 리뷰어를 지원합니다.
LLM의 한계와 잠재력에 대한 논의는 안전-critical 응용에서 신중한 통합의 필요성을 강조합니다.

Abstract

다양한 산업 분야의 소프트웨어 엔지니어들은 이미 대형 언어 모델(LLM)을 활용하여 소프트웨어 시스템 구현의 일부 과정을 가속화하고 있습니다. 자동차 맥락에서 ADAS 또는 AD 시스템에 이를 적용하는 것을 고려할 때, 새로운 설정을 체계적으로 평가할 필요가 있습니다: LLM은 확률적 특성으로 인해 안전 관련 시스템 개발에 잘 알려진 위험 요소를 내포하고 있습니다. LLM이 생성한 코드를 평가하는 코드 리뷰어의 부담을 줄이기 위해, 우리는 생성된 코드에 대한 정상성 검사를 수행하는 평가 파이프라인을 제안합니다. 우리는 CodeLlama, CodeGemma, DeepSeek-r1, DeepSeek-Coders, Mistral, GPT-4 등 6개의 최신 LLM을 4개의 안전 관련 프로그래밍 작업에서 성능 비교합니다. 추가로, 이 LLM들이 자주 발생시키는 결함을 정성적으로 분석하여 리뷰어를 지원하는 실패 모드 카탈로그를 작성하였습니다. 마지막으로, 코드 생성에서 LLM의 한계와 능력 및 제안된 파이프라인의 기존 프로세스 내 적용에 대해 논의합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ali Nouri

Beatriz Cabrero‐Daniel

Zhennan Fei

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

안전한 자율주행 차량을 위한 코드 공동 생성에서 대형 언어 모델

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider