What type of study is this?

This is a Experimental Study study.

September 29, 2025Open Access

CODE-DITING: コード評価における機能的一致性のための推論ベース指標

Key Points

CODE-DITING 1.5Bは同一パラメータ数のモデルを上回り、通常はより大規模モデルで見られる結果を達成。
実証研究により、2つのLLM-as-Judgeカテゴリーを特定：一般モデルは性能に優れるが説明性に乏しい。
推論基盤モデルはより良い説明性を提供するが、より多くの計算資源を必要とする。
CODE-DITINGは多数決戦略を組み込み、嗜好漏洩を最小限に抑えつつ堅牢なコード評価を実現。

Abstract

信頼できるコードスニペット評価方法は、ニューラルコード生成において極めて重要です。従来の方法は、参照解答に依存するか実行可能なテストケースを必要とし、柔軟性や拡張性に本質的な限界があります。最近のLLM-as-Judge手法は、問題記述と生成コードの機能的一貫性を直接評価することで、有望な代替手段を提供します。これらのLLM-as-Judge手法の全体像を体系的に理解するために、我々は3つの多様なデータセットを用いて包括的な実証研究を実施しました。我々の調査は2つのLLM-as-Judge手法の長所と短所を明らかにしました：一般的な基盤モデルに基づく方法は良好な性能を示しますが複雑なプロンプトを必要とし説明性に欠け、一方、推論基盤モデルに基づく方法はより良い説明性を簡単なプロンプトで提供しますが、大規模なパラメータ数により計算資源を多大に要求します。これらの制約に対応するために、CODE-DITINGという、新たなコード評価手法を提案し、正確性・効率性・説明性のバランスを図りました。DeepSeek-R1671Bから当方のCODE-DITING 1.5Bおよび7Bモデルへの推論能力を効果的に転移するデータ蒸留フレームワークを開発し、評価の説明性を大幅に向上させつつ計算コストを削減しました。推論過程における多数決戦略により、CODE-DITING 1.5Bは同規模パラメータモデルを凌駕し、通常5倍の規模を持つモデルで実現される性能を達成します。CODE-DITING 7Bは、それら大規模モデルのパラメータ量のわずか1％を使用しながら、GPT-4oやDeepSeek-V3 671Bを上回ります。さらなる実験により、CODE-DITINGは嗜好漏洩に対して堅牢であり、コード評価の有望な代替となり得ることが示されています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guang Yang

Yu Zhou

Xiang Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CODE-DITING: コード評価における機能的一致性のための推論ベース指標

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study