Key points are not available for this paper at this time.
코드를 위한 대형 언어 모델(LLM)이 빠르게 발전함에 따라 코드 편집이 중요한 능력으로 부상하고 있습니다. 우리는 디버깅, 번역, 다듬기, 요구사항 전환 등 코드 편집 작업에서 LLM의 성능을 엄격히 평가하기 위한 평가 프레임워크인 CodeEditorBench를 소개합니다. 기존 벤치마크가 코드 생성에만 집중하는 것과 달리, CodeEditorBench는 실제 시나리오와 소프트웨어 개발의 실용적 측면을 강조합니다. 다양한 프로그래밍 언어, 복잡도 수준, 편집 작업을 아우르는 다섯 가지 출처에서 다양한 코딩 도전 과제와 시나리오를 선별했습니다. 19개 LLM 평가 결과, 폐쇄형 모델(특히 Gemini-Ultra 및 GPT-4)이 CodeEditorBench에서 오픈소스 모델보다 우수한 성능을 보였으며, 문제 유형 및 프롬프트 민감도에 따른 모델 성능 차이를 강조합니다. CodeEditorBench는 코드 편집 능력 평가를 위한 견고한 플랫폼을 제공하여 LLM 발전을 촉진하는 것을 목표로 합니다. 모든 프롬프트와 데이터셋을 공개하여 커뮤니티가 데이터셋을 확장하고 새로운 LLM 벤치마크를 가능하게 할 예정입니다. CodeEditorBench 도입을 통해 우리는 코드 편집 분야에서 LLM의 발전에 기여하고 연구자 및 실무자에게 귀중한 자원을 제공합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiawei Guo
Ziming Li
Xueling Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo 등(목요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e70792b6db6435876818f3 — DOI: https://doi.org/10.48550/arxiv.2404.03543
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: