Key points are not available for this paper at this time.
コードの理解と生成は、言語モデル(LM)の最も人気のある応用の一つに急速に成長しました。それにもかかわらず、コード生成用の多言語コード言語モデル(Code-LM)に関する研究、例えば異なるプログラミング言語間のクロスリンガルトランスファー、言語特有のデータ増強、および事後のLM適応、さらには元のテキスト以外のデータソースの活用は、自然言語モデルに比べてはるかに乏しいのが現状です。特に、大多数の主流Code-LMはソースコードファイルのみで事前学習されています。本研究では、プログラミング言語間で共有されるコンパイラの中間表現を活用し、Code-LMの多言語能力を向上させ、クロスリンガルトランスファーを促進する可能性を探ります。そのために、まずSLTransという並列データセットを作成しました。これは約400万件の自己完結型ソースコードファイルと対応する中間表現から成ります。次に、1.1Bから7.3Bパラメータの様々なベースCode-LMを出発点として、SLTrans上で因果言語モデリングの継続学習を行い、Code-LMに(1)中間表現言語の学習と(2)中間表現構造と複数のプログラミング言語の対応構造の整合を強制しました。こうして得られたモデル群はIRCoderと名付けられ、多様なコード生成タスクと評価指標、例としてプロンプトの堅牢性、多言語コード補完、コード理解、命令追従において、有意かつ一貫した性能向上を示しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Indraneil Paul
Jun Luo
Goran Glavaš
Building similarity graph...
Analyzing shared references across papers
Loading...
Paulら(Wed,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e758b6b6db6435876d005c — DOI: https://doi.org/10.48550/arxiv.2403.03894