March 6, 2024Open Access

IRCoder: 中間表現が言語モデルを堅牢にする多言語コードジェネレーター

Key Points

Key points are not available for this paper at this time.

Abstract

コードの理解と生成は、言語モデル（LM）の最も人気のある応用の一つに急速に成長しました。それにもかかわらず、コード生成用の多言語コード言語モデル（Code-LM）に関する研究、例えば異なるプログラミング言語間のクロスリンガルトランスファー、言語特有のデータ増強、および事後のLM適応、さらには元のテキスト以外のデータソースの活用は、自然言語モデルに比べてはるかに乏しいのが現状です。特に、大多数の主流Code-LMはソースコードファイルのみで事前学習されています。本研究では、プログラミング言語間で共有されるコンパイラの中間表現を活用し、Code-LMの多言語能力を向上させ、クロスリンガルトランスファーを促進する可能性を探ります。そのために、まずSLTransという並列データセットを作成しました。これは約400万件の自己完結型ソースコードファイルと対応する中間表現から成ります。次に、1.1Bから7.3Bパラメータの様々なベースCode-LMを出発点として、SLTrans上で因果言語モデリングの継続学習を行い、Code-LMに(1)中間表現言語の学習と(2)中間表現構造と複数のプログラミング言語の対応構造の整合を強制しました。こうして得られたモデル群はIRCoderと名付けられ、多様なコード生成タスクと評価指標、例としてプロンプトの堅牢性、多言語コード補完、コード理解、命令追従において、有意かつ一貫した性能向上を示しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Indraneil Paul

Jun Luo

Goran Glavaš

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

IRCoder: 中間表現が言語モデルを堅牢にする多言語コードジェネレーター

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

IRCoder: 中間表現が言語モデルを堅牢にする 多言語コードジェネレーター

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

IRCoder: 中間表現が言語モデルを堅牢にする多言語コードジェネレーター