Key points are not available for this paper at this time.
우리는 다양한 프롬프트 전략, 프로그래밍 언어, 과제 난이도를 사용하여 일곱 개의 대규모 언어 모델이 프로그래밍 코드를 생성하는 성능을 체계적으로 평가하였다. GPT-4는 Gemini Ultra와 Claude 2를 포함한 다른 대규모 언어 모델들보다 현저히 뛰어난 성능을 보였다. GPT-4의 코딩 성능은 프롬프트 전략에 따라 큰 차이를 보인다. 본 연구에서 평가한 대부분의 LeetCode 및 GeeksforGeeks 코딩 대회에서 최적의 프롬프트 전략을 적용한 GPT-4는 인간 참가자의 85% 이상을 능가하였다. 또한, GPT-4는 서로 다른 프로그래밍 언어 간의 코드 번역과 과거 오류로부터 학습하는 능력도 뛰어나다. GPT-4가 생성한 코드의 계산 효율성은 인간 프로그래머와 비교해도 유사하다. 이러한 결과는 GPT-4가 프로그래밍 코드 생성 및 소프트웨어 개발에서 신뢰할 수 있는 조수로서 잠재력이 있음을 시사한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenpin Hou
Zhicheng Ji
Building similarity graph...
Analyzing shared references across papers
Loading...
Hou 등(Fri,)이 이 문제를 연구하였다.
www.synapsesocial.com/papers/68e7634db6db6435876d94f8 — DOI: https://doi.org/10.48550/arxiv.2403.00894
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: