信頼できるコードスニペット評価方法は、ニューラルコード生成において極めて重要です。従来の方法は、参照解答に依存するか実行可能なテストケースを必要とし、柔軟性や拡張性に本質的な限界があります。最近のLLM-as-Judge手法は、問題記述と生成コードの機能的一貫性を直接評価することで、有望な代替手段を提供します。これらのLLM-as-Judge手法の全体像を体系的に理解するために、我々は3つの多様なデータセットを用いて包括的な実証研究を実施しました。我々の調査は2つのLLM-as-Judge手法の長所と短所を明らかにしました:一般的な基盤モデルに基づく方法は良好な性能を示しますが複雑なプロンプトを必要とし説明性に欠け、一方、推論基盤モデルに基づく方法はより良い説明性を簡単なプロンプトで提供しますが、大規模なパラメータ数により計算資源を多大に要求します。これらの制約に対応するために、CODE-DITINGという、新たなコード評価手法を提案し、正確性・効率性・説明性のバランスを図りました。DeepSeek-R1671Bから当方のCODE-DITING 1.5Bおよび7Bモデルへの推論能力を効果的に転移するデータ蒸留フレームワークを開発し、評価の説明性を大幅に向上させつつ計算コストを削減しました。推論過程における多数決戦略により、CODE-DITING 1.5Bは同規模パラメータモデルを凌駕し、通常5倍の規模を持つモデルで実現される性能を達成します。CODE-DITING 7Bは、それら大規模モデルのパラメータ量のわずか1%を使用しながら、GPT-4oやDeepSeek-V3 671Bを上回ります。さらなる実験により、CODE-DITINGは嗜好漏洩に対して堅牢であり、コード評価の有望な代替となり得ることが示されています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Guang Yang
Yu Zhou
Xiang Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Yangら(Mon,)はこの問題について研究しました。
www.synapsesocial.com/papers/68da5a3ec1728099cfd119bc — DOI: https://doi.org/10.48550/arxiv.2505.19502