March 1, 2024Open Access

대규모 언어 모델을 이용한 프로그래밍 코드 생성에 대한 체계적 평가

Key Points

Key points are not available for this paper at this time.

Abstract

우리는 다양한 프롬프트 전략, 프로그래밍 언어, 과제 난이도를 사용하여 일곱 개의 대규모 언어 모델이 프로그래밍 코드를 생성하는 성능을 체계적으로 평가하였다. GPT-4는 Gemini Ultra와 Claude 2를 포함한 다른 대규모 언어 모델들보다 현저히 뛰어난 성능을 보였다. GPT-4의 코딩 성능은 프롬프트 전략에 따라 큰 차이를 보인다. 본 연구에서 평가한 대부분의 LeetCode 및 GeeksforGeeks 코딩 대회에서 최적의 프롬프트 전략을 적용한 GPT-4는 인간 참가자의 85% 이상을 능가하였다. 또한, GPT-4는 서로 다른 프로그래밍 언어 간의 코드 번역과 과거 오류로부터 학습하는 능력도 뛰어나다. GPT-4가 생성한 코드의 계산 효율성은 인간 프로그래머와 비교해도 유사하다. 이러한 결과는 GPT-4가 프로그래밍 코드 생성 및 소프트웨어 개발에서 신뢰할 수 있는 조수로서 잠재력이 있음을 시사한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenpin Hou

Zhicheng Ji

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

대규모 언어 모델을 이용한 프로그래밍 코드 생성에 대한 체계적 평가

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider